卡内基梅隆大学·最新15种典型RAG框架综述

最新推荐文章于 2025-10-14 11:03:09 发布

原创最新推荐文章于 2025-10-14 11:03:09 发布 · 1.3k 阅读

CC 4.0 BY-SA版权

文章标签：

本文全面探讨了 Retrieval-Augmented Generation (RAG) 的发展历程，从基础概念到最新技术的演变。RAG 通过结合检索与生成模型，有效提升了输出准确性，克服了 LLM 的局限。研究详细分析了 RAG 的架构，展示了检索与生成如何协同处理知识密集型任务。同时，文章也指出了 RAG 在可扩展性、偏见和伦理方面的挑战，并提出了未来研究方向，以增强模型鲁棒性、拓展应用范围并关注社会影响。本调查旨在为 NLP 领域的研究者和实践者提供一份基础指南，帮助他们更好地理解 RAG 的潜力及其发展路径。

关键词：检索增强生成（RAG）、信息检索、自然语言处理（NLP）、人工智能（AI）、机器学习（ML）、大型语言模型（LLM）

引言

在这里插入图片描述

RAG 的局限性

在面对模糊查询或特定知识领域的检索时，仍可能出现错误。依赖于如DPR（Dense Passage Retrieval）所使用的密集向量表示，有时也会检索出不相关或偏离主题的文档。因此，需要通过引入更精细的查询扩展和上下文消歧技术来提升检索技术的精准度。理论上，检索与生成的结合应该是天衣无缝的，但在实际操作中，生成模块有时难以将检索到的信息有效整合进回应中，导致检索事实与生成文本间的不一致或不连贯。
计算成本也是一个备受关注的点，因为需要对每个查询执行检索和生成两个步骤，这对于大规模应用尤其资源密集。模型剪枝或知识蒸馏等技术可能有助于在不牺牲性能的前提下降低计算负担。
伦理问题，尤其是偏见和透明度问题。AI和LLM中的偏见是一个广泛研究且不断演变的领域，研究者们识别出包括性别、社会经济阶层、教育背景在内的多种偏见类型。虽然RAG通过检索更平衡的信息有潜力减少偏见，但仍存在放大检索来源偏见的风险。而且，确保检索结果在选择和使用过程中的透明度，对于维护这些系统的信任至关重要。

一、RAG框架核心组件和架构

在这里插入图片描述

二、基于不同类型数据的RAG模型

在这里插入图片描述

2.1 基于文本的RAG模型

基于文本的RAG模型是目前最为成熟且广泛研究的类型。依托文本数据，执行检索与生成任务，推动了问答、摘要和对话智能体等应用的发展。BERT和T5等Transformer架构构成了文本RAG模型的基石，运用自注意力机制来捕捉文本内的上下文联系，从而提升检索的精确度和生成的流畅度。

2.2 基于音频的RAG模型

基于音频的RAG模型将检索增强型生成的理念拓展至音频领域，为语音识别、音频摘要和语音界面中的对话智能体等应用开辟了新天地。音频数据常通过Wav2Vec 2.0等预训练模型衍生的嵌入表示来呈现。这些嵌入作为检索和生成组件的输入，使得模型能够有效地处理音频数据。

2.3 基于视频的RAG模型

基于视频的RAG模型融合视觉与文本信息，增强了视频理解、字幕生成和检索等任务的表现。视频数据通过 I3D TimeSformer 等模型的嵌入表示来呈现。这些嵌入捕捉了时间与空间特征，对于有效的检索和生成至关重要。

2.4 多模态RAG模型

多模态RAG模型融合了文本、音频、视频和图像等多种模态的数据，为检索和生成任务提供了一种更全面的方法。例如Flamingo这样的模型将不同模态整合进一个统一的框架内，实现了文本、图像和视频的同时处理。跨模态检索技术涉及在不同模态间检索相关信息。“检索即生成（Retrieval as generation）”通过结合文本到图像和图像到文本的检索，将检索增强型生成（RAG）框架扩展到了多模态应用。利用大规模的配对图像和文本描述数据集，在用户查询与存储的文本描述相匹配时，能够快速生成图像（“检索即生成”）。

三、现有RAG框架进展

在这里插入图片描述

3.1 基于智能体的RAG

3.1.1 基于智能体的RAG： 一种新的智能体检索增强型生成（RAG）框架采用了分层的多智能体结构，子智能体使用小型预训练语言模型（SLMs）针对特定的时间序列任务进行微调。主智能体将任务分配给这些子智能体，从共享知识库中检索相关提示。这种模块化多智能体方法实现了较高的性能，展现了在时间序列分析中相较于特定任务方法的灵活性和效率。
3.1.2 RULERULE： RULERULE是一个多模态RAG框架，旨在提升医学视觉-语言模型（Med-LVLM）的事实准确性，通过引入校准选择策略控制事实风险，并开发偏好优化策略平衡模型内在知识与检索上下文，证明了其在提升Med-LVLM系统事实准确性方面的有效性。
3.1.3 METRAG： METRAG，一个多层次、思维增强（thoughts enhanced）的检索增强型生成框架，结合文档相似性和实用性来提升性能。包括一个任务自适应摘要器，以产生蒸馏后内容摘要。利用这些阶段的多次思考，LLM生成知识增强内容，在知识密集型任务上与传统方法相比展现出更优越的性能。
3.1.4 RAFT： RAFT（Retrieval Augmented Fine-Tuning）干扰文档是检索增强型微调（RAFT）（Zhang等，2024）的关键特征之一，用不相关、干扰性文档训练模型如何辨别，而直接引用相关来源。结合思维链推理，增强了模型的推理能力。RAFT在特定领域的RAG任务中表现出一致的性能提升，包括PubMed、HotpotQA和Gorilla数据集，作为LLMs的后训练增强。
3.1.5 FILCO： FILCO旨在提升生成模型在开放域问答和事实验证等任务中提供的上下文质量，解决对检索段落过度或不足依赖的问题，可能导致生成输出中的幻觉问题。该方法通过词汇和信息论方法识别有用的上下文，并通过训练上下文过滤模型在测试期间提炼检索上下文，提高了上下文质量。
3.1.6 Self-RAG： 反思标记是自反思检索增强型生成（Self-RAG）（Asai等，2023）的关键属性，通过结合检索与自反思来提高大型语言模型（LLMs）的事实准确性。与传统方法不同，Self-RAG自适应地检索相关段落，并使用反思标记评估和提炼其响应，允许模型根据特定任务需求调整行为，并在开放域问答、推理、事实验证和长篇生成任务中表现出优越性能。
3.1.7 MK Summary： MK Summary是一种以数据为中心的检索增强型生成（RAG）工作流程，超越了传统的检索-阅读模式，采用了准备-重写-检索-阅读框架，通过整合上下文相关、时间关键或特定领域的信息来增强LLMs。其创新点包括生成元数据、合成问题和答案（QA），并引入文档集群的元知识摘要（MK摘要）。
3.1.8 CommunityKG-RAG： CommunityKG-RAG是一个零样本框架，将知识图谱（KGs）中的社区结构整合到检索增强型生成（RAG）系统中。通过利用KGs中的多跳连接，提高了事实检查的准确性和上下文相关性，超越了不需要额外领域特定训练的传统方法。
3.1.9 RAPTOR： RAPTOR引入了一种层次化方法来增强检索增强型语言模型，解决了传统方法只检索短的、连续文本块的限制。RAPTOR通过递归嵌入、聚类和总结文本，形成摘要树以在不同抽象级别检索信息。实验表明RAPTOR在需要复杂推理的问答任务中表现出优越性能。当与GPT-4配对时，RAPTOR在QuALITY基准测试中的准确性提高了20%。

3.2 基于长上下文的RAG框架

3.2.1 自适应路由（Self-Route）： Self-Route 通过模型自省动态分配查询至RAG或LC，从而优化计算成本与性能。为RAG和LC在处理长期上下文任务时的最佳应用提供了深刻见解。
3.2.2 SFR-RAG： SFR-RAG是一个小巧而高效的RAG模型，旨在增强LLMs对外部上下文信息的整合，同时减少幻觉现象。
3.2.3 LA-RAG： LA-RAG是一种新型RAG范式，旨在提升LLMs中的自动语音识别（ASR）能力。亮点在于其能够利用细粒度的标记级语音数据存储和语音到语音的检索机制，通过LLM的上下文学习提高ASR的精确度。
3.2.4 HyPA-RAG： LLMs在AI法律和政策背景下因知识过时和幻觉而面临挑战。HyPA-RAG是一个混合参数自适应检索增强型生成系统，通过自适应参数调整和混合检索策略提高了精确度。在NYC Local Law 144的测试中，HyPA-RAG展现了更高的正确性和上下文精度，有效应对了法律文本的复杂性。
3.2.5 MemoRAG： MemoRAG引入了一种新型RAG范式，克服传统RAG系统在处理模糊或非结构化知识时的局限。MemoRAG的双系统架构利用轻量级长距离LLM生成草稿答案并指导检索工具，而更强大的LLM则负责完善最终输出。这一框架针对更好的线索提取和记忆容量进行了优化，在复杂和简单的任务中都显著超越了传统RAG模型。
3.2.6 NLLB-E5： NLLB-E5推出了一个可扩展的多语言检索模型，解决支持多语言，尤其是像印度语这样的低资源语言所面临的挑战。借助NLLB编码器和E5多语言检索器的蒸馏方法，NLLB-E5能够实现跨语言的零样本检索，无需多语言训练数据。在Hindi-BEIR等基准测试上的评估显示了其强大的性能，突显了任务特定的挑战，并推动了全球包容性的多语言信息获取。

四、RAG的挑战与局限性

可扩展性和效率：RAG模型在处理大规模数据和动态增长的数据集时面临可扩展性问题。高计算成本和内存需求使得在实时或资源受限的环境中部署RAG模型变得困难。
检索质量和相关性：确保检索到的文档的质量和相关性仍然是一个重要问题。检索模型有时返回不相关或过时的信息，这会负面影响生成输出的准确性。
偏见和公平性：RAG系统可能会因为检索数据集中的偏见而表现出偏见。开发同时针对检索和生成的偏见缓解技术是一个持续的挑战。
连贯性：RAG模型在将检索到的知识与生成模型输出整合时，常常会遇到连贯性问题。检索到的段落与生成模型的输出之间的对齐并不总是无缝的，导致最终响应中的不一致或事实幻觉。
解释性和透明度：像许多AI系统一样，RAG模型通常被视为黑箱，检索如何影响生成的过程缺乏透明度。提高这些模型的解释性对于在关键应用中建立信任至关重要。

五、总结

这篇论文全面综述了检索增强生成（RAG）模型的发展历程、当前状态和未来方向。RAG模型通过结合检索和生成机制，显著提高了LLMs在知识密集型任务中的表现，特别是在事实准确性和上下文相关性方面。尽管RAG模型在多个领域取得了显著进展，但仍面临可扩展性、检索质量和偏见等挑战。未来的研究方向包括提高多模态集成、优化可扩展性和效率、增强个性化和适应性、以及解决伦理和隐私问题。通过解决这些挑战，下一代RAG模型有望推动更可靠、高效和领域自适应的LLMs系统的进一步发展。