卡内基梅隆大学·最新15种典型RAG框架综述

本文全面探讨了 Retrieval-Augmented Generation (RAG) 的发展历程,从基础概念到最新技术的演变。RAG 通过结合检索与生成模型,有效提升了输出准确性,克服了 LLM 的局限。研究详细分析了 RAG 的架构,展示了检索与生成如何协同处理知识密集型任务。同时,文章也指出了 RAG 在可扩展性、偏见和伦理方面的挑战,并提出了未来研究方向,以增强模型鲁棒性、拓展应用范围并关注社会影响。本调查旨在为 NLP 领域的研究者和实践者提供一份基础指南,帮助他们更好地理解 RAG 的潜力及其发展路径

关键词:检索增强生成(RAG)、信息检索、自然语言处理(NLP)、人工智能(AI)、机器学习(ML)、大型语言模型(LLM)

引言

在这里插入图片描述

RAG 的局限性

  • 在面对模糊查询或特定知识领域的检索时,仍可能出现错误。依赖于如DPR(Dense Passage Retrieval)所使用的密集向量表示,有时也会检索出不相关或偏离主题的文档。因此,需要通过引入更精细的查询扩展和上下文消歧技术来提升检索技术的精准度。理论上,检索与生成的结合应该是天衣无缝的,但在实际操作中,生成模块有时难以将检索到的信息有效整合进回应中,导致检索事实与生成文本间的不一致或不连贯。

  • 计算成本也是一个备受关注的点,因为需要对每个查询执行检索和生成两个步骤,这对于大规模应用尤其资源密集。模型剪枝或知识蒸馏等技术可能有助于在不牺牲性能的前提下降低计算负担。

  • 伦理问题,尤其是偏见和透明度问题。AI和LLM中的偏见是一个广泛研究且不断演变的领域,研究者们识别出包括性别、社会经济阶层、教育背景在内的多种偏见类型。虽然RAG通过检索更平衡的信息有潜力减少偏见,但仍存在放大检索来源偏见的风险。而且,确保检索结果在选择和使用过程中的透明度,对于维护这些系统的信任至关重要。

一、RAG框架核心组件和架构

在这里插入图片描述

二、基于不同类型数据的RAG模型

在这里插入图片描述

2.1 基于文本的RAG模型

基于文本的RAG模型是目前最为成熟且广泛研究的类型。依托文本数据,执行检索与生成任务,推动了问答、摘要和对话智能体等应用的发展。BERT和T5等Transformer架构构成了文本RAG模型的基石,运用自注意力机制来捕捉文本内的上下文联系,从而提升检索的精确度和生成的流畅度。

2.2 基于音频的RAG模型

基于音频的RAG模型将检索增强型生成的理念拓展至音频领域,为语音识别、音频摘要和语音界面中的对话智能体等应用开辟了新天地。音频数据常通过Wav2Vec 2.0等预训练模型衍生的嵌入表示来呈现。这些嵌入作为检索和生成组件的输入,使得模型能够有效地处理音频数据。

2.3 基于视频的RAG模型

基于视频的RAG模型融合视觉与文本信息,增强了视频理解、字幕生成和检索等任务的表现。视频数据通过 I3D TimeSformer 等模型的嵌入表示来呈现。这些嵌入捕捉了时间与空间特征,对于有效的检索和生成至关重要。

2.4 多模态RAG模型

多模态RAG模型融合了文本、音频、视频和图像等多种模态的数据,为检索和生成任务提供了一种更全面的方法。例如Flamingo这样的模型将不同模态整合进一个统一的框架内,实现了文本、图像和视频的同时处理。跨模态检索技术涉及在不同模态间检索相关信息。“检索即生成(Retrieval as generation)”通过结合文本到图像和图像到文本的检索,将检索增强型生成(RAG)框架扩展到了多模态应用。利用大规模的配对图像和文本描述数据集,在用户查询与存储的文本描述相匹配时,能够快速生成图像(“检索即生成”)。

三、现有RAG框架进展

在这里插入图片描述

3.1 基于智能体的RAG

  • 3.1.1 基于智能体的RAG: 一种新的智能体检索增强型生成(RAG)框架采用了分层的多智能体结构,子智能体使用小型预训练语言模型(SLMs)针对特定的时间序列任务进行微调。主智能体将任务分配给这些子智能体,从共享知识库中检索相关提示。这种模块化多智能体方法实现了较高的性能,展现了在时间序列分析中相较于特定任务方法的灵活性和效率。

  • 3.1.2 RULERULE: RULERULE是一个多模态RAG框架,旨在提升医学视觉-语言模型(Med-LVLM)的事实准确性,通过引入校准选择策略控制事实风险,并开发偏好优化策略平衡模型内在知识与检索上下文,证明了其在提升Med-LVLM系统事实准确性方面的有效性。

  • 3.1.3 METRAG: METRAG,一个多层次、思维增强(thoughts enhanced)的检索增强型生成框架,结合文档相似性和实用性来提升性能。包括一个任务自适应摘要器,以产生蒸馏后内容摘要。利用这些阶段的多次思考,LLM生成知识增强内容,在知识密集型任务上与传统方法相比展现出更优越的性能。

  • 3.1.4 RAFT: RAFT(Retrieval Augmented Fine-Tuning)干扰文档是检索增强型微调(RAFT)(Zhang等,2024)的关键特征之一,用不相关、干扰性文档训练模型如何辨别,而直接引用相关来源。结合思维链推理,增强了模型的推理能力。RAFT在特定领域的RAG任务中表现出一致的性能提升,包括PubMed、HotpotQA和Gorilla数据集,作为LLMs的后训练增强。

  • 3.1.5 FILCO: FILCO旨在提升生成模型在开放域问答和事实验证等任务中提供的上下文质量,解决对检索段落过度或不足依赖的问题,可能导致生成输出中的幻觉问题。该方法通过词汇和信息论方法识别有用的上下文,并通过训练上下文过滤模型在测试期间提炼检索上下文,提高了上下文质量。

  • 3.1.6 Self-RAG: 反思标记是自反思检索增强型生成(Self-RAG)(Asai等,2023)的关键属性,通过结合检索与自反思来提高大型语言模型(LLMs)的事实准确性。与传统方法不同,Self-RAG自适应地检索相关段落,并使用反思标记评估和提炼其响应,允许模型根据特定任务需求调整行为,并在开放域问答、推理、事实验证和长篇生成任务中表现出优越性能。

  • 3.1.7 MK Summary: MK Summary是一种以数据为中心的检索增强型生成(RAG)工作流程,超越了传统的检索-阅读模式,采用了准备-重写-检索-阅读框架,通过整合上下文相关、时间关键或特定领域的信息来增强LLMs。其创新点包括生成元数据、合成问题和答案(QA),并引入文档集群的元知识摘要(MK摘要)。

  • 3.1.8 CommunityKG-RAG: CommunityKG-RAG是一个零样本框架,将知识图谱(KGs)中的社区结构整合到检索增强型生成(RAG)系统中。通过利用KGs中的多跳连接,提高了事实检查的准确性和上下文相关性,超越了不需要额外领域特定训练的传统方法。

  • 3.1.9 RAPTOR: RAPTOR引入了一种层次化方法来增强检索增强型语言模型,解决了传统方法只检索短的、连续文本块的限制。RAPTOR通过递归嵌入、聚类和总结文本,形成摘要树以在不同抽象级别检索信息。实验表明RAPTOR在需要复杂推理的问答任务中表现出优越性能。当与GPT-4配对时,RAPTOR在QuALITY基准测试中的准确性提高了20%。

3.2 基于长上下文的RAG框架

  • 3.2.1 自适应路由(Self-Route): Self-Route 通过模型自省动态分配查询至RAG或LC,从而优化计算成本与性能。为RAG和LC在处理长期上下文任务时的最佳应用提供了深刻见解。

  • 3.2.2 SFR-RAG: SFR-RAG是一个小巧而高效的RAG模型,旨在增强LLMs对外部上下文信息的整合,同时减少幻觉现象。

  • 3.2.3 LA-RAG: LA-RAG是一种新型RAG范式,旨在提升LLMs中的自动语音识别(ASR)能力。亮点在于其能够利用细粒度的标记级语音数据存储和语音到语音的检索机制,通过LLM的上下文学习提高ASR的精确度。

  • 3.2.4 HyPA-RAG: LLMs在AI法律和政策背景下因知识过时和幻觉而面临挑战。HyPA-RAG是一个混合参数自适应检索增强型生成系统,通过自适应参数调整和混合检索策略提高了精确度。在NYC Local Law 144的测试中,HyPA-RAG展现了更高的正确性和上下文精度,有效应对了法律文本的复杂性。

  • 3.2.5 MemoRAG: MemoRAG引入了一种新型RAG范式,克服传统RAG系统在处理模糊或非结构化知识时的局限。MemoRAG的双系统架构利用轻量级长距离LLM生成草稿答案并指导检索工具,而更强大的LLM则负责完善最终输出。这一框架针对更好的线索提取和记忆容量进行了优化,在复杂和简单的任务中都显著超越了传统RAG模型。

  • 3.2.6 NLLB-E5: NLLB-E5推出了一个可扩展的多语言检索模型,解决支持多语言,尤其是像印度语这样的低资源语言所面临的挑战。借助NLLB编码器和E5多语言检索器的蒸馏方法,NLLB-E5能够实现跨语言的零样本检索,无需多语言训练数据。在Hindi-BEIR等基准测试上的评估显示了其强大的性能,突显了任务特定的挑战,并推动了全球包容性的多语言信息获取。

四、RAG的挑战与局限性

  1. 可扩展性和效率:RAG模型在处理大规模数据和动态增长的数据集时面临可扩展性问题。高计算成本和内存需求使得在实时或资源受限的环境中部署RAG模型变得困难。

  2. 检索质量和相关性:确保检索到的文档的质量和相关性仍然是一个重要问题。检索模型有时返回不相关或过时的信息,这会负面影响生成输出的准确性。

  3. 偏见和公平性:RAG系统可能会因为检索数据集中的偏见而表现出偏见。开发同时针对检索和生成的偏见缓解技术是一个持续的挑战。

  4. 连贯性:RAG模型在将检索到的知识与生成模型输出整合时,常常会遇到连贯性问题。检索到的段落与生成模型的输出之间的对齐并不总是无缝的,导致最终响应中的不一致或事实幻觉。

  5. 解释性和透明度:像许多AI系统一样,RAG模型通常被视为黑箱,检索如何影响生成的过程缺乏透明度。提高这些模型的解释性对于在关键应用中建立信任至关重要。

五、总结

这篇论文全面综述了检索增强生成(RAG)模型的发展历程、当前状态和未来方向。RAG模型通过结合检索和生成机制,显著提高了LLMs在知识密集型任务中的表现,特别是在事实准确性和上下文相关性方面。尽管RAG模型在多个领域取得了显著进展,但仍面临可扩展性、检索质量和偏见等挑战。未来的研究方向包括提高多模态集成、优化可扩展性和效率、增强个性化和适应性、以及解决伦理和隐私问题。通过解决这些挑战,下一代RAG模型有望推动更可靠、高效和领域自适应的LLMs系统的进一步发展。


六、最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费

### RAG评估框架综述 RAG(Retrieval-Augmented Generation)是一种结合检索和生成模型的技术,旨在通过引入外部知识库提升自然语言处理系统的性能。为了有效评估RAG系统的表现,需要采用综合性的评估框架。这种框架不仅关注生成文本的质量,还注重检索模块的效果以及两者的协同作用。 #### 评估框架的关键要素 评估框架通常包括以下几个方面: - **检索效果**:衡量检索模块从知识库中提取相关信息的能力。 - **生成质量**:评价生成模块产出文本的相关性、流畅性、连贯性和事实一致性。 - **整体表现**:分析检索与生成之间的协作效率,确保最终输出满足预期目标[^3]。 --- ### RAG评估框架的优势 1. **全面性** - 该框架能够覆盖多个维度的评估指标,如检索精度、生成质量和上下文相关性,从而提供对整个系统的深入洞察。 2. **可扩展性** - 自动化评估工具减少了依赖人工审核的需求,降低了成本并提高了效率。这种方法尤其适合大规模部署的应用场景。 3. **灵活性** - 用户可以根据实际需求定制具体的评估标准,例如针对不同领域调整权重分配或增加特殊约束条件[^4]。 4. **促进优化** - 明确指出哪些部分存在不足之处,帮助开发者快速定位问题所在,并采取相应措施改进算法性能[^2]。 --- ### RAG评估框架的劣势 1. **复杂度较高** - 构建一套完整的评估体系可能涉及多种技术和资源投入,对于小型团队来说可能存在一定难度。 2. **难以平衡各因素** - 不同应用场景下优先级有所不同,如何合理设置各项评分比例成为一大挑战。错误配置可能导致误导结论。 3. **忽略主观体验** - 尽管自动化方法能高效完成初步筛选工作,但仍无法完全替代人类直觉判断某些微妙差异,比如情感色彩或者文化背景影响下的表达方式。 4. **适应性强弱受限** - 当面对高度专业化术语密集型文档时,现有通用评测手段可能会显得力不从心,需额外开发针对性解决方案。 --- ```python # 示例代码展示简单的RAG评估逻辑 def evaluate_rag(retrieved_docs, generated_text): """ 对RAG系统进行基本评估 参数: retrieved_docs (list): 检索得到的知识片段列表 generated_text (str): 自动生成的结果字符串 返回值: dict: 各项得分汇总表 """ scores = {} # 计算检索准确性 retrieval_score = calculate_retrieval_accuracy(retrieved_docs) scores['retrieval'] = retrieval_score # 测量生成文本质量 generation_metrics = measure_generation_quality(generated_text) scores.update(generation_metrics) return scores def calculate_retrieval_accuracy(docs): pass # 实现具体计算逻辑... def measure_generation_quality(text): metrics = { 'fluency': assess_fluency(text), 'coherence': check_coherence(text), 'relevance': determine_relevance(text), 'factuality': verify_factuality(text) } return metrics print(evaluate_rag(["example doc"], "generated sentence")) ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值