Sparrow @andrejusb 2.2k⭐️
Sparrow 是一个用于从各种文档和图像中高效提取和处理数据的开源方案,它无缝处理表格、发票、收据和其他非结构化数据源。它以模块化架构脱颖而出,提供独立的服务和 pipeline,全部优化以实现强大的性能。
一个关键功能是可插拔架构,可以轻松地使用 LlamaIndex @llama_index、Haystack @Haystack_AI 或 Unstructured @UnstructuredIO 等工具和框架集成并运行数据提取 pipeline。
通过 Ollama @ollama 或 Apple MLX 启用本地 LLM 数据提取流水线。
Sparrow Agent - 使用 Sparrow,可以构建独立的 LLM Agent,并使用 API 从系统中调用它们。
可用 Agent 列表:
· llamaindex - 用于 PDF 处理的 RAG pipeline
· vllamaindex - 用于图像处理的 RAG pipeline
· vprocessor - 带有 OCR 和 LlamaIndex 的 RAG pipeline,用于图像处理
· haystack - 用于 PDF 处理的 RAG pipeline
· fcall - 函数调用 pipeline
· unstructured-light - 支持 PDF 和图像处理的 Unstructured 和 LangChain 的 RAG pipeline
· unstructured - 支持 PDF 和图像处理的 Weaviate 向量数据库查询、Unstructured 和 LangChain 的 RAG pipeline
· instructor - 支持 PDF 和图像处理的 Unstructured 和 Instructor 库的 RAG pipeline,非常适合生成 JSON 响应
Github repo:
https://t.co/tZ5w13fGgk
点击图片查看原图