pdf-extract-api: 结合 OCR 和 LLM 实现高质量的本地文档智能化处理 @CatchtheTornado
# 基于现代 OCR 技术和 @ollama LLM 的 PDF 文档解析 API, 能够将 PDF/图片高精度转换为 Markdown/JSON 格式, 支持数学公式识别、隐私信息删除, 完全本地部署无需云服务, 适合对数据隐私敏感的企业级应用场景。
※ 核心功能
- 可以将任何PDF文档或图片转换为 Markdown 文本或 JSON 结构化文档
- 支持数学公式的高精度识别和转换
- 能够自动移除文档中的个人身份信息(PII)
- 支持 OCR 识别和文档解析
※ 技术架构
- 基于 @FastAPI 构建 API 服务
- 使用 Celery 处理异步 OCR 任务
- 使用 Redis 进行缓存
- 结合 PyTorch 的 OCR(Marker) 和 Ollama 模型
- 完全本地部署, 无需外部云服务依赖
※ 关键特性
- 高质量 OCR: 使用不同的 OCR 策略确保高精度转换
- LLM 增强: 使用 Llama 模型改进 OCR 结果, 修复拼写和文本问题
- 隐私保护: 可以移除敏感个人信息
- 分布式处理: 使用 Celery 实现队列处理
- GPU 支持: 支持 GPU 加速
项目地址:
https://t.co/r4NZM8CpCg
点击图片查看原图