模块化的RAG和RAG流程：第一部分

翻译已于 2024-01-29 17:42:54 修改 · 1.8k 阅读

3 ·

CC 4.0 BY-SA版权

原文链接：https://medium.com/@yufan1602/modular-rag-and-rag-flow-part-%E2%85%B0-e69b32dc13a3

文章标签：

#LLM #RAG

于 2024-01-29 17:33:29 首次发布

RAG的压缩和高级总结。

在第一部分中，我们将重点介绍模块化RAG的概念和组成部分，包括6种模块类型，14个模块和40多个运算符。

简介

在过去的一年里，检索增强生成（RAG）作为实现LLM应用的方法的概念引起了相当大的关注。我们撰写了一份关于RAG的综合调查报告，深入探讨了从天真的RAG到先进的RAG和模块化RAG的转变。然而，该调查主要通过增强的视角（例如增强源/阶段/过程）来审视RAG技术。

本文将重点介绍模块化RAG范式。我们进一步定义了一个三层的模块化RAG范式，包括模块类型、模块和操作符。在这个范式下，我们详细阐述了当前RAG系统中的核心技术，包括6种主要的模块类型、14个模块和40多个操作符，旨在提供对RAG的全面理解。

通过组织不同的运营商，我们可以得出各种RAG流程，这是我们在本文中要阐明的一个概念。根据广泛的研究，我们已经提炼和总结了典型的模式、几个具体的实施案例和最佳行业案例。（由于空间限制，这部分将在第二部分中讨论。）

本文的目标是提供对RAG发展现状的更深入理解，并为未来的进展铺平道路。

模块化RAG提供了许多机会，方便定义新的运算符、模块和配置新的流程。

我们RAG调查中的数据

什么是模块化RAG？

RAG的进展带来了更多样化和灵活的过程，如下关键方面所示：

增强数据采集：RAG已经扩展到传统的非结构化数据之外，现在还包括半结构化和结构化数据，重点是对结构化数据进行预处理，以改善检索效果并减少模型对外部知识源的依赖。
整合技术：RAG正在与其他技术整合，包括微调、适配器模块和强化学习，以增强检索能力。
适应性检索过程：检索过程已经发展到支持多轮检索增强，利用检索到的内容来指导生成，反之亦然。

此外，通过自主判断和使用LLM，确定检索的需求，提高了回答问题的效率。

模块化RAG的定义

以上，我们可以看到RAG的快速发展已经超越了链式高级RAG范式，展示了模块化的特点。为了解决当前的组织和抽象不足，我们提出了一种模块化的RAG方法，无缝地集成了天真RAG和高级RAG的开发范式。

模块化RAG呈现出一种高度可扩展的范式，将RAG系统划分为模块类型、模块和运算符的三层结构。每个模块类型代表RAG系统中的核心流程，包含多个功能模块。每个功能模块又包含多个具体的运算符。

整个RAG系统成为多个模块和相应操作符的排列组合，形成我们所称的RAG流程。

在Flow中，可以在每个模块类型中选择不同的功能模块，并且在每个功能模块中可以选择一个或多个运算符。

与之前的范式的关系

模块化的RAG以多层次的模块形式组织RAG系统。高级RAG是RAG的一种模块化形式，而天真的RAG是高级RAG的一个特例。这三种范式之间的关系是继承和发展的关系。

模块化RAG的机会

模块化RAG的好处是显而易见的，为现有的与RAG相关的工作提供了新鲜而全面的视角。通过模块化组织，相关技术和方法得到了清晰的总结。

研究视角。模块化RAG具有高度可扩展性，使研究人员能够根据对当前RAG发展的全面了解提出新的模块类型、模块和运算符。
应用角度。RAG系统的设计和构建变得更加方便，允许用户根据他们现有的数据、使用场景、下游任务和其他需求来自定义RAG流程。开发人员还可以参考当前的流程构建方法，并根据不同的应用场景和领域定义新的流程和模式。

模块化RAG的框架

模块类型 - 模块 - 运算符

在本章中，我们将深入探讨三层结构，并为RAG构建一个技术路线图。由于空间限制，我们将避免深入讨论技术细节；然而，我们将提供全面的参考资料供进一步阅读。

索引化

索引化是将文本分解为可管理的块的过程，在组织系统中是一个关键步骤，面临着三个主要挑战：

不完整的内容表示。块的语义信息受到分割方法的影响，导致在较长的上下文中丢失或淹没重要信息。
不准确的块相似性搜索。随着数据量的增加，检索中的噪声也增加，导致频繁与错误数据匹配，使检索系统变得脆弱和不可靠。
不明确的参考轨迹。检索到的块可能来自任何文档，没有引用路径，可能导致来自多个不同文档的块的存在，尽管在语义上相似，但包含完全不同主题的内容。

块优化

较大的块可以捕捉更多的上下文，但也会产生更多的噪音，需要更长的处理时间和更高的成本。而较小的块可能无法完全传达必要的上下文，但它们的噪音较少。

滑动窗口

使用重叠的块是平衡这些需求的一种简单方法。通过使用滑动窗口，语义转换得到增强。

然而，存在一些限制，包括对上下文大小的控制不精确，截断单词或句子的风险，以及缺乏语义考虑。

小到大

关键思想是将用于检索的块与用于合成的块分开。使用较小的块可以提高检索的准确性，而较大的块可以提供更多的上下文信息。

具体而言，一种方法可以是检索较小的块，然后引用父ID来返回较大的块。或者，可以检索单个句子，并返回该句子周围的文本窗口。

详细信息和LlamaIndex实施。

高级RAG 01：从小到大的检索

子父递归检索器和带有LlamaIndex的句子窗口检索

towardsdatascience.com

摘要

这类似于小到大的概念，首先生成较大块的摘要，然后在摘要上进行检索。随后，可以对较大块进行二次检索。

元数据附件

块可以通过元数据信息进行丰富，例如页码、文件名、作者、时间戳、摘要或块可以回答的问题。随后，可以根据这些元数据进行检索过滤，限制搜索范围。请参阅LlamaIndex中的实现。

结构组织

提升信息检索效果的一种有效方法是为文档建立层次结构。通过构建块状结构，RAG系统可以加快相关数据的检索和处理。

分层索引

在文档的层次结构中，节点以父子关系排列，与它们链接的是块。每个节点存储数据摘要，帮助快速遍历数据，并协助RAG系统确定要提取的块。

这种方法还可以减轻由块提取问题引起的错觉。

构建结构化索引的方法主要包括：

结构意识。文档中的段落和句子分割。
内容感知。PDF、HTML、Latex中的固有结构。
语义意识。基于自然语言处理技术，如利用NLTK，对文本进行语义识别和分割。

检查Arcus在大规模下的分层索引。

KG组织文件

在构建文档的层次结构中利用知识图谱（KGs）有助于保持一致性。它勾勒了不同概念和实体之间的连接，显著减少了产生错觉的可能性。

另一个优势是将信息检索过程转化为LLM能够理解的指令，从而提高知识检索的准确性，并使LLM能够生成上下文连贯的回答，从而提高RAG系统的整体效率。

检查Neo4j的实现和LllmaIndex Neo4j查询引擎。

使用知识图谱来组织多个文档，您可以参考这篇研究论文《KGP：用于多文档问答的知识图谱提示》。

知识图谱提示：多文档问答的新方法

多文档问答（MD-QA）涉及回答需要综合多个文档信息的问题..

medium.com

2. 预检索

Naive RAG的主要挑战之一是直接依赖用户的原始查询作为检索的基础。准确清晰地提出问题是困难的，不明智的查询会导致检索效果不佳。

这个阶段的主要挑战包括：

查询问题表达不清楚。问题本身很复杂，语言组织不好。
语言复杂性和歧义。语言模型在处理专业词汇或具有多重含义的模糊缩写时常常遇到困难。例如，它们可能无法确定“LLM”是指大型语言模型还是法律背景下的法学硕士。

查询扩展

将单个查询扩展为多个查询可以丰富查询的内容，提供进一步的上下文以解决特定细微差别的缺失，从而确保生成的答案的最佳相关性。

多查询

通过使用LLMs来扩展查询，可以通过及时工程来并行执行这些查询。查询的扩展不是随机的，而是经过精心设计的。这个设计的两个关键标准是查询的多样性和覆盖范围。

使用多个查询的一个挑战是可能会削弱用户最初的意图。为了减轻这个问题，我们可以指示模型在提示工程中给予原始查询更大的权重。

子查询

子问题规划的过程代表了在组合时生成必要的子问题，以对原始问题进行情境化和完全回答。这个添加相关背景的过程，原则上类似于查询扩展。

具体来说，可以使用从最少到最多提示的方法将复杂问题分解为一系列更简单的子问题。

子问题查询引擎 - LlamaIndex 🦙 0.9.36

在本教程中，我们展示如何使用子问题查询引擎来解决回答复杂查询的问题..

docs.llamaindex.ai

CoVe

另一种查询扩展的方法是使用Meta AI提出的验证链（CoVe）。扩展的查询经过LLM的验证，以达到减少幻觉的效果。经过验证的扩展查询通常具有更高的可靠性。

查询转换

使用转换后的查询来检索和生成，而不是使用用户的原始查询。

改写

原始查询在LLM检索中并不总是最优的，特别是在现实场景中。因此，我们可以提示LLM重新编写查询。除了使用LLM进行查询重写外，还可以利用专门的较小语言模型，如RRR（重写-检索-阅读）。

淘宝推广系统中的查询重写方法的实施，即BEQUE：用于检索增强的大型语言模型的查询重写，显著提高了长尾查询的召回效果，导致了GMV的增长。

HyDE

在回答查询时，LLM构建假设文档（假设的答案），而不是直接在向量数据库中搜索查询及其计算向量。

它专注于将相似性嵌入到答案之间，而不是寻求问题或查询的嵌入相似性。此外，它还包括反向HyDE，专注于从查询到查询的检索。

HyDE和Reverse HyDE的核心思想是建立查询和答案之间的联系。

先进的RAG - 使用假设文档嵌入（HyDE）改进检索

HyDE是什么？

https://medium.aiplanet.com/

Step-back Prompting

使用Google DeepMind提出的Step-back Prompting方法，将原始查询抽象化以生成一个高级概念问题（后退问题）。

在RAG系统中，回退问题和原始查询都用于检索，并且两者的结果都被用作语言模型答案生成的基础。

引入了一种新的提示工程技术，称为后退提示

后退提示是一种提示技术，使LLMs能够进行抽象、推导高层概念和首先..

cobusgreyling.medium.com

查询路由

根据不同的查询，将路由到不同的RAG管道，适用于一个多功能的RAG系统，旨在适应各种情况。

元数据路由器/过滤器

第一步是从查询中提取关键词（实体），然后根据关键词和块内的元数据进行过滤，以缩小搜索范围。

语义路由器

另一种路由方法涉及利用查询的语义信息。具体方法见语义路由器。当然，还可以采用混合路由方法，结合语义和基于元数据的方法，以增强查询路由。

检查语义路由器存储库。

超越基本的聊天机器人：语义路由器如何改变游戏

今天的博客文章将带您进入语义路由器的复杂性的激动人心的旅程，这是一个项目..

https://cobusgreyling.medium.com/

查询构建

将用户的查询转换为另一种查询语言，以访问其他数据源。常见的方法包括：

文本转密码
文本到SQL

在许多场景中，结构化查询语言（例如SQL、Cypher）通常与语义信息和元数据一起使用，以构建更复杂的查询。有关具体细节，请参阅Langchain博客。

查询构建

关键链接 * 文本到元数据：更新的自查询文档和模板 * 文本到SQL+语义：食谱和模板..

博客.langchain.dev

3 检索

检索过程在RAG中起着至关重要的作用。利用强大的PLMs能够有效地表示查询和文本在潜在空间中，从而促进问题和文档之间的语义相似性建立，以支持检索。

需要考虑三个主要因素：

检索效率
嵌入质量
任务、数据和模型的对齐

检索犬选择

自从ChatGPT发布以来，嵌入模型的开发疯狂进行。Hugging Face的MTEB排行榜评估了几乎所有可用的嵌入模型在8个任务上的表现——聚类、分类、双语文本匹配、配对分类、重新排序、检索、语义文本相似度（STS）和摘要，涵盖了58个数据集。此外，C-MTEB专注于评估中文嵌入模型的能力，涵盖了6个任务和35个数据集。

在构建RAG应用程序时，没有一个适用于所有情况的答案来回答“使用哪种嵌入模型”。然而，您可能会注意到特定的嵌入模型更适合特定的用例。

检查MTEB/C-MTEB排行榜。

MTEB排行榜 - 一个由mteb创建Hugging Face空间

发现由社区制作的令人惊叹的机器学习应用程序

Hugging Face

稀疏检索器

稀疏编码模型可能被认为是一种有些过时的技术，通常基于词频统计等统计方法，但由于其较高的编码效率和稳定性，它们仍然具有一定的地位。常见的系数编码模型包括BM25和TF-IDF。

密集检索器

神经网络密集编码模型包括几种类型：

基于BERT架构的编码器-解码器语言模型，例如ColBERT。
综合多任务微调模型，如BGE和百川文本嵌入。
基于云API的模型，如OpenAI-Ada-002和Cohere Embedding。
下一代加速编码框架Dragon+，专为大规模数据应用而设计。
混合检索

两种嵌入方法捕捉到不同的相关特征，并且可以通过利用互补的相关信息相互受益。例如，稀疏检索模型可以用于为训练密集检索模型提供初始搜索结果。

此外，PLM可以用于学习术语权重，以增强稀疏检索。

具体来说，它还表明稀疏检索模型可以增强密集检索模型的零-shot检索能力，并帮助密集检索器处理包含稀有实体的查询，从而提高鲁棒性。

IVAN ILIN：高级RAG技术：图解概述的图片

检索器微调

在上下文可能与预训练模型在嵌入空间中认为相似的情况下分歧较大的情况下，特别是在高度专业化的领域，如医疗保健、法律和其他充斥着专有术语的领域，调整嵌入模型可以解决这个问题。

虽然这种调整需要额外的努力，但它可以大大提高检索效率和领域对齐。

SFT

您可以根据领域特定的数据构建自己的微调数据集，使用LlamaIndex可以迅速完成这项任务。

LSR（LM-supervised Retriever）

与直接从数据集构建微调数据集不同，LSR利用语言模型生成的结果作为监督信号，在RAG过程中对嵌入模型进行微调。

强化学习

受到RLHF（从人类反馈中进行强化学习）的启发，利用基于语言模型的反馈来通过强化学习加强检索器。

适配器

有时候，对整个检索器进行微调可能会很昂贵，特别是当处理基于API的检索器时，因为这些检索器无法直接进行微调。

在这种情况下，我们可以通过添加适配器模块并进行微调来减轻这种情况。添加适配器的另一个好处是能够更好地与特定的下游任务对齐。

任务特定。PRCA：通过可插拔的奖励驱动上下文适配器，为检索式问答配备黑盒大型语言模型。
任务无关。AAR（增强适应检索器）引入了一个通用适配器，旨在适应多个下游任务。

4后检索

检索整个文档块并直接将其输入LLM的上下文环境并不是一个最佳选择。对文档进行后处理可以帮助LLM更好地利用上下文信息。

主要挑战包括：

迷失在中间。就像人类一样，LLM倾向于只记住长文本的开头和结尾，而忘记中间部分。
噪音/反事实块。检索到的噪音或事实上相互矛盾的文件可能会影响最终的检索结果生成。
上下文窗口。尽管检索到了大量相关内容，但大型模型中上下文信息长度的限制阻止了包含所有这些内容。

重新排序

重新对检索到的文档块进行重新排序，不改变其内容或长度，以增强对于LLM更关键的文档块的可见性。具体来说：

规则基础重新排序

根据特定规则，计算指标以重新排列块。常见的指标包括：

多样性
相关性
最大边际相关性（MRR，1998年）

MMR的理念是减少冗余并增加结果的多样性，它用于文本摘要。MMR根据查询相关性和信息新颖性的综合标准，在最终关键词列表中选择短语。

检查HayStack中的rerank实现

在Haystack中增强RAG管道：引入DiversityRanker和LostInTheMiddleRanker

压缩和选择

在RAG过程中的一个常见误解是认为尽可能检索到更多相关文件并将它们连接起来形成一个冗长的检索提示是有益的。

然而，过多的上下文可能会引入更多的噪音，降低LLM对关键信息的感知，并导致“迷失在中间”等问题。解决这个问题的常见方法是压缩和选择检索到的内容。

（长）LLMLingua

通过利用对齐和训练的小型语言模型，如GPT-2 Small或LLaMA-7B，实现了对提示中不重要的标记的检测和删除，将其转化为对人类难以理解但LLMs能够理解的形式。这种方法提供了一种直接实用的提示压缩方法，无需对LLMs进行额外的训练，同时平衡了语言的完整性和压缩比。

检查LLMLingua项目。

通过Prompt压缩，探索LLMs的特殊语言

提示压缩

https://wyydsb.xin/

重新编译

Recomp引入了两种类型的压缩器：一种是从检索到的文档中选择相关句子的抽取式压缩器，另一种是通过合并多个文档中的信息生成简洁摘要的抽象式压缩器。

两个压缩器都经过训练，以提高语言模型在最终任务上的性能，当生成的摘要被添加到语言模型的输入时，同时确保摘要的简洁性。

在检索到的文档与输入无关或未提供额外信息给语言模型时，压缩器可以返回一个空字符串，从而实现选择性增强。

选择性背景

通过识别和删除输入上下文中的冗余内容，可以简化输入，从而提高语言模型的推理效率。选择性上下文类似于“停用词去除”策略。在实践中，选择性上下文根据基础语言模型计算的自信息评估词汇单位的信息内容。

通过保留具有更高自信息量的内容，该方法为语言模型处理提供了更简洁高效的文本表示，而不会影响其在各种应用中的性能。

然而，它忽视了压缩内容与目标语言模型和用于提示压缩的小语言模型之间的相互依赖关系。