RAG 工业落地方案框架（智谱RAG、有道Qanything、RAGFlow、FastGPT）细节比对

最新推荐文章于 2025-03-31 15:16:13 发布

大耳朵爱学习

最新推荐文章于 2025-03-31 15:16:13 发布

阅读量1.6k

点赞数 11

文章标签：语言模型人工智能 AI大模型自然语言处理 RAG RAGFlow 大语言模型

本文链接：https://blog.youkuaiyun.com/2401_85379281/article/details/143791755

版权

本文主要介绍了不同公司在实现RAG（检索增强生成）模型时采用的技术方案和优化策略，并对它们的功能模块、召回模块、重排模块、大模型处理、Web服务、切词处理、文件存储等方面进行了比较和总结。

原文链接：https://zhuanlan.zhihu.com/p/704828374

所谓 RAG，简单来说，包含三件事情。

第一，Indexing。即怎么更好地把知识存起来。

第二，Retrieval。即怎么在大量的知识中，找到一小部分有用的，给到模型参考。

第三，Generation。即怎么结合用户的提问和检索到的知识，让模型生成有用的答案。这三个步骤虽然看似简单，但在 RAG 应用从构建到落地实施的整个过程中，涉及较多复杂的工作内容（细节上是魔鬼）。

架构几乎按照这个模块设计，但是各家落地方案各有不同

先看一下各家的技术方案

有道的QAnything

亮点在：rerank

RAGFLow

亮点在：数据处理+index

智谱AI

亮点在文档解析、切片、query改写及recall模型的微调

FastGPT

优点：灵活性更高

下面分别按照模块比较各框架的区别

功能模块	QAnything	RAGFLow
知识处理模块	pdf文件解析是抑郁PyMUPDF实现的，目前效率最高的，解析文档的文字采用的是PyMuPDF的get_text.不区分文字文档，还是图像文档（图像文档的若没有文字会报错）	OCR， Document Layout Analyze 等，这些在常规的 RAG 中可能会作为一个不起眼的 Unstructured Loader 包含进去，可以猜到 RagFlow 的一个核心能力在于文件的解析环节


召回模块	向量库采用milvus的混合检索（BM25+向量检索），不设置阈值，返回topk（100）	向量数据库使用的是 ElasticSearch。混合检索，实现的是文本检索 + 向量检索，
没有指定具体的向量模型，但是使用huqie作为文本检索的分词器	语义检索
语义检索模式通过先进的向量模型技术，将知识库中的数据集转换成高维向量空间中的点。在这个空间中，每个文档或数据项都被表示为一个向量，这些向量能够捕捉到数据的语义信息。当用户提出查询时，系统同样将问题转化为向量，并在向量空间中与知识库中的向量进行相似度计算，以找到最相关的结果。

优势：能够理解并捕捉查询的深层含义，提供更加精准的搜索结果。
应用场景：适用于需要深度语义理解和复杂查询处理的情况，如学术研究、技术问题解答等。
技术实现：利用如text-embedding-ada-002等模型，对文本数据进行embedding，实现高效的语义匹配。

全文检索
全文检索模式侧重于对文档的全文内容进行索引，允许用户通过输入关键词来检索文档。这种模式通过分析文档中的每个词项，并建立一个包含所有文档的索引数据库，使用户可以通过任何一个词或短语快速找到相关的文档。

优势：检索速度快，能够对大量文档进行广泛的搜索，方便用户快速定位到包含特定词汇的文档。
应用场景：适用于需要对文档库进行全面搜索的场景，如新闻报道、在线图书馆等。
技术实现：采用倒排索引技术，通过关键词快速定位到文档，同时结合诸如TF-IDF等算法优化搜索结果的相关性。

混合检索
混合检索模式结合了语义检索的深度理解和全文检索的快速响应，旨在提供既精准又全面的搜索体验。在这种模式下，系统不仅会进行关键词匹配，还会结合语义相似度计算，以确保搜索结果的相关性和准确性。

优势：兼顾了全文检索的速度和语义检索的深度，提供了一个平衡的搜索解决方案，提高了用户满意度。
应用场景：适合于需要综合考虑检索速度和结果质量的场景，如在线客服、内容推荐系统等。
技术实现：通过结合倒排索引和向量空间模型，实现对用户查询的全面理解和快速响应。例如，可以先通过全文检索快速筛选出候选集，再通过语义检索从候选集中找出最相关的结果。
向量模型采用：BGE-M3

别通过向量检索、文本检索召回数据，并采用RFF算法排序； | 采用文章结构切片以及 small to big 的索引策略可以很好地解决。针对后者，则需要对 Embedding 模型进行微调。我们有四种不同的构造数据的方案，在实践中都有不错的表现：
Query vs Original：简单高效，数据结构是直接使用用户 query 召回知识库片段；

Query vs Query：便于维护，即使用用户的 query 召回 query，冷启动的时候可以利用模型自动化从对应的知识片段中抽取 query；

Query vs Summary：使用 query 召回知识片段的摘要，构建摘要和知识片段之间的映射关系；

F-Answer vs Original：根据用户 query 生成 fake answer 去召回知识片段。