以下当前比较知名的RAG的文档解析辅助工具的开源项目汇总,包含核心功能、License信息及GitHub地址:
1. RAGFlow
- 核心功能:支持PDF/扫描件/CAD等23种格式解析,OCR准确率98%,知识图谱融合,混合检索(BM25+向量),工业级部署,单节点日处理超10万页文档。
- 开源信息:
2. Chonkie
- 核心功能:提供5种文本切分方式(Token/Word/Sentence/Semantic/SDPM),支持自定义分块策略,适配LangChain/LlamaIndex等框架。
- 开源信息:
- GitHub:https://github.com/bhavnicksm/chonkie
- License:未明确标注,但代码库公开可访问。
3. VARAG
- 核心功能:多模态RAG实践平台,支持OCR文本检索、视觉信息检索、跨模态嵌入(如JinaCLIP),适用于复杂布局文档(如信息图表)。
- 开源信息:
4. Kotaemon
- 核心功能:基于RAG的文档问答工具,支持多模态解析、混合检索、复杂推理(如多跳问题),提供Web-UI界面及高亮引用。
- 开源信息:
5. Haystack
- 核心功能:模块化框架,支持文档检索、问答、摘要,集成Elasticsearch/FAISS/SQL存储及BERT/RoBERTa等模型。
- 开源信息:
6. txtai
- 核心功能:AI驱动的数据平台,支持语义搜索、多语言处理、自定义工作流,覆盖文本/图像/视频联合检索。
- 开源信息:
7. QAnything
- 核心功能:网易开源项目,支持文档解析、多模态问答,但具体技术细节需参考代码库。
- 开源信息:
- GitHub:GitHub - netease-youdao/QAnything: Question and Answer based on Anything.
- License:未明确标注。
8. ragflow-upload
- 核心功能:RAGFlow的辅助工具,支持批量上传/解析文档,简化知识库构建流程。
- 开源信息:
- GitHub:GitHub - Samge0/ragflow-upload: 自动批量上传并解析文档至 RagFlow 知识库,省去手动操作,提升效率。
- License:MIT
9. UnstructuredPaddleOCR
- 核心功能:基于PaddlePaddle的OCR工具包,支持80+语言文本识别,适用于PDF/Word等文档提取。
- 开源信息:
选型建议:
- 企业级部署:优先选择 RAGFlow(Apache-2.0)或 Haystack(Apache-2.0),功能全面且支持工业级负载。
- 轻量级使用:Chonkie 适合文本切分,txtai 适合语义搜索,ragflow-upload 简化批量操作。
- 多模态场景:VARAG 或 Kotaemon 支持跨模态检索,但需注意License兼容性。