深度解读RAG技术发展历程（三）：生成 - Generation、增强 - Augmentation

原创已于 2024-09-12 20:32:12 修改 · 1.1k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #AI大模型 #大模型 #AI #RAG #学习

于 2024-08-29 06:00:00 首次发布

三、G（生成 - Generation）

检索后，通常不能直接将检索到的所有信息输入 LLM 回答问题，需要对检索到的内容或者模型进行调整。

3.1 上下文扩展（Context Curation）

冗余信息会干扰 LLM 的最终生成，过长的上下文也会导致 LLM 陷入 “中间丢失” 的问题（像人类一样，LLM 倾向于只关注长文本的开头和结尾，而忘记中间部分。）。因此，在 RAG 系统中，我们通常需要进一步处理检索到的内容。

重排（Reranking）:

重排从根本上重新排列文档块，首先突出最相关的结果，有效地减少了整个文档池，切断了信息检索的双重目的，既充当增强器又充当过滤器，为更精确的语言模型处理提供精炼的输入。

重新排序可以使用基于规则的方法来执行，这些方法依赖于预定义的度量，如多样性、相关性和 MRR，或者基于模型的方法，如 BERT 系列的 Encoder-Decoder 模型 (如 SpanBERT) ，专门的重新排序模型，如 Cohere 重新排序或 bge-raranker-large，以及一般的大语言模型，如 GPT。

上下文选择 / 压缩

RAG 过程中的一个常见误解是，认为检索尽可能多的相关文档并将它们连接起来形成一个冗长的检索提示符是有益的。然而，过多的上下文会引入更多的噪音，降低 LLM 对关键信息的感知。除了压缩上下文之外，减少文档的数量也有助于提高模型答案的准确性。

3.2 微调（LLM Fine-tuning）

基于场景和 LLMs 上的数据特征进行有针对性的微调可以产生更好的结果（这里就是 RAG 结合 FT 的思想）。当 LLM 在特定领域缺乏数据时，可以通过微调向 LLM 提供额外的知识。微调的另一个好处是能够调整模型的输入和输出。例如，它可以使 LLM 适应特定的数据格式，并按照指示以特定的风格生成响应。

四、A（增强 - Augmentation）

在 RAG 领域，标准实践往往涉及一个单一的 (一次) 检索步骤，有时对于需要多步推理的复杂问题通常是不够的，因为单次检索提供的信息范围有限。

除了最常见的一次检索，RAG 还包括三种类型的检索增强过程。

迭代检索涉及检索和生成之间的交替，允许在每个步骤从知识库中获得更丰富和更有针对性的上下文
递归检索包括逐渐细化用户查询，将问题分解为子问题，然后通过检索和生成不断解决复杂问题。
自适应检索的重点是使 RAG 系统能够自主决定是否需要外部知识检索，以及何时停止检索和生成，通常使用 LLM 生成的特殊令牌进行控制。

五、任务和评价

RAG 模型在自然语言处理领域的快速发展和日益广泛的应用已经将 RAG 模型的评估推向了 LLMs 社区研究的前沿。

5.1 下游任务

RAG 的核心任务仍然是问答 (QA) ，包括传统的单跳 / 多跳 QA、多选择、特定领域的 QA 以及适合 RAG 的长格式场景。除了 QA 之外，RAG 还不断地被扩展到多个下游任务，如信息提取 (IE)、对话生成、代码搜索等。

5.2 评估

RAG 模型的评估强调三个主要质量评分和四个基本能力，它们共同决定了 RAG 模型的两个主要评价指标: 检索和生成。

质量得分
上下文相关性：评估检索上下文的精确性和特异性，确保相关性并最小化与外部内容相关的处理成本。
回答忠实性：确保生成的答案保持真实的检索上下文，保持一致性，避免矛盾。
答案相关性：要求生成的答案与提出的问题直接相关，有效地解决核心问题。
能力评价
噪声鲁棒性：评估模型管理与问题相关但缺乏实质性信息的噪声文档的能力。
否定拒绝：评估模型在检索到的文档不包含回答问题所需的必要知识时拒绝回答的识别能力。
信息集成 (Information Integration)：评估模型在综合多个文档信息以解决复杂问题方面的能力。
反事实鲁棒性：评估模型识别和忽略文档中已知的不准确性的能力，即使在指示可能的错误信息时也是如此。

上下文相关性和噪声鲁棒性是评价检索质量的重要指标，而答案忠实度、答案相关性、否定拒绝、信息整合和反事实鲁棒性是评价检索质量的重要指标。

六、讨论和未来前景

6.1 RAG vs Long Context

随着 LLMs 研究不断深入，目前 LLMs 可以直接处理 20 万个标记的上下文。这种能力意味着，以前依赖 RAG 的长文档问答现在可以直接将整个文档整合到提示符中。

事实上，RAG 仍然扮演着不可替代的角色。一方面，同时为 LLMs 提供大量的上下文将显著影响其推理速度，而分块检索和按需输入则可显著提高其运行效率。另一方面，基于 rag 的生成可以快速定位 LLMs 的原始引用，帮助用户验证生成的答案。整个检索和推理过程是可以观察到的，而完全依赖于长上下文的生成仍然是一个黑匣子。在超长上下文处理能力背景下，新 RAG 方法是未来的研究趋势之一。有研究结果表明，包括不相关的文件可以出乎意料地将准确性提高 30% 以上，与质量下降的最初假设相矛盾。这些结果强调了开发专门的策略以将检索与语言生成模型结合起来的重要性，突出了对 RAG 的健壮性进行进一步研究和探索的必要性。

6.2 Hybrid Approaches

将 RAG 与微调相结合正在成为一种领先的策略。确定 RAG 的最佳集成和微调，无论是顺序的，交替的，还是通过端到端的联合训练 - 以及如何利用这两个参数化

6.3 Production-Ready RAG

RAG 的实用性和与工程需求的一致性促进了它的采用。RAG 生态系统的发展在很大程度上受到其技术层次进步的影响。随着 ChatGPT 的出现，LangChain 和 LLamaIndex 等关键工具迅速受到欢迎，它们提供了广泛的 rag 相关 api，并成为 LLMs 领域的必备工具。新兴的技术堆栈，虽然不像 LangChain 和 LLamaIndex 那样功能丰富，但是通过它的专业化产品脱颖而出。例如，Flowise AI 优先考虑低代码的方法，允许用户通过用户友好的拖放界面部署 AI 应用程序，包括 RAG。其他技术如 HayStack、 Meltano 和 Cohere Coral 也因其在这一领域的独特贡献而受到关注。

除了专注于人工智能的供应商，传统的软件和云服务供应商正在扩展他们的产品，包括以 rag 为中心的服务。Weaviate 的 Verba 11 是为个人助理应用程序设计的，而 Amazon 的 Kendra 12 提供智能企业搜索服务，使用户能够使用内置的连接器浏览各种内容存储库。在 RAG 技术的发展过程中，出现了一个明显的趋势，朝着不同的专业化方向发展，例如:

定制化 - 根据特定需求调整 RAG（Retrieval-Augmented Generation，检索增强生成）。
简化 - 使 RAG 更易用，以降低初始学习曲线。
专业化 - 优化 RAG 以更好地服务于生产环境。RAG 生态图如下

6.4 Multi-modal RAG

RAG 已经超越了它最初基于文本的问答范围，包含了各种各样的模态数据。这种扩展催生了创新的多模态模型，将 RAG 概念整合到各个领域: 图像、音视频、Vid2Seq、code。结语随着 LLM 及 RAG 技术的不断发展，Agent 的基础能力愈发强大，如何将底层能力整合，产生一个现象级的产品是当下最直接的诉求。Agent 最终的呈现形态，一直在探索与期待… 随着 Agent 爆发，我们不妨尝试将 RAG 融入到 Agent 设计中，进一步提升其 “智能性” 和“专业性”～