一句话总结:该综述系统梳理了 RAG 技术的发展脉络,从早期开放域问答任务中的原型,到近年来多领域大规模应用的系统化演化,进行了全面而深入的总结。
论文地址:https://arxiv.org/abs/2507.18910

图片由 Nano Banana Pro 生成
在斯坦福教授吴恩达(Andrew Ng)于 2025 年最新发布的大模型课程中,他提出了一个引发全球技术社区热议的观点——RAG 是当前提升大语言模型(LLM)回答质量与准确性的最常用技术,并且可能已经成为全球最普遍的大模型应用形态。

视频网址:https://learn.deeplearning.ai/courses/retrieval-augmented-generation/lesson/rrngb/a-conversation-with-andrew-ng
这一判断并非夸张,而是对过去两年大模型在学术界与工业界行业趋势的精准总结。从顶会论文到商业系统,从技术巨头到创业公司,从搜索引擎到企业智能助手,都在探索如何充分挖掘“RAG + LLM”的力量。研究者们不断提出更强的检索器、更智能的生成器架构,并将其扩展到多模态、长上下文、代理系统等新方向。
在这篇 2025 年最新的 RAG 综述中,研究者系统梳理了过去一年的技术进展,提出了新的分析视角,并探讨了未来的发展趋势。本系列文章也将对其进行解读和日常案例挖掘。

在阅读本系列文章时,小编也邀请大家带着以下问题一同思考:
- RAG 是什么?为什么需要 RAG?RAG 如何工作?如何评估一个 RAG 系统?
- RAG 的技术发展历程是什么?RAG 是如何在工业界实现大规模落地的?
- RAG 当前面临哪些挑战?又有哪些解决方案与未来优化方向?
在这篇文章里,我们主要聚焦在第一个问题。
下面让我们一起来读读这篇文章吧~
一、RAG 概念
RAG 是一种将文本检索模块与文本生成模块结合的框架,旨在提升知识密集型任务中生成回复的质量。从形式化定义来看,RAG模型通过检索器为序列到序列(seq2seq)生成器提供外部文本语料的访问能力。
给定输入查询,检索器从大型语料库中筛选出小范围相关文档集(其中);生成器则基于查询与检索文档生成输出(如答案或描述性文本)。
RAG模型可视为一种隐变量生成模型,其通过对检索文档进行边缘化,定义输出的概率分布:
其中:
- 为检索器输出的“查询下检索到文档”的概率分布;
- 为生成器“基于查询与文档生成”的条件概率。
实际应用中,仅前个检索结果的非零,以此实现对全语料求和的可计算近似。检索器可定义为函数,其输入为查询与语料库,输出为与相关的小范围文档集()。
二、RAG 意义
RAG 与纯 LLM 最大的区别,是它在推理阶段引入了外部、可更新的非参数化知识。
传统 LLM 完全依赖训练期间固化在模型参数中的“内部记忆”,当遇到知识盲区时极易产生幻觉;而 RAG 将生成过程锚定在检索到的文档上,使模型能够基于真实证据给出回答。
更关键的是,RAG 的知识库可以随时更新——只需替换或新增文档,无需重新训练模型。这使得 RAG 能突破 LLM“知识冻结”的局限,成为一种灵活、可扩展且成本友好的知识增强手段。
三、RAG 系统的核心模块
典型 RAG 包含四个模块:分块(Chunking)、嵌入(Embedding)、重排序(Re-ranking)、生成(Generation)。架构如下图所示。

- **分块:**对知识源进行预处理,将长文档切分为独立的短文本块(如段落或文段)以用于索引。
- **嵌入:**将每个文本块转化为高维向量表征,以编码其语义信息。
- **重排序:**对初始检索的候选文本块进行二次排序,进一步提升检索精度。
- **生成:**重排序后,选取前个(如3-5个)文本块作为生成器的最终上下文;LLM基于检索到的外部文本块生成答案或回复,将检索文本与用户查询拼接后输入模型。
分块、嵌入、重排序、生成四个环节协同工作,使RAG系统可充分利用外部知识,这种模块化设计已成为构建高可靠性、可解释性AI助手的核心基础。
1.RAG 系统的执行流程
在完成分块、向量化、重排序与生成器配置后,一个 RAG 系统是如何从用户输入到最终回答的呢?下面让我们沿着信息流,走一遍典型 RAG 系统的完整工作过程:

图片由 Nano Banana Pro 生成
- 查询编码:给定输入查询(如自然语言问题),检索器的查询编码器先将转化为向量表征,该向量在稠密嵌入空间中编码了查询的语义信息。
- 文档检索:基于查询向量,系统在文档索引中进行检索,计算查询与各文档的相似度得分,并获取得分最高的前个文档。这前个文档被视为与查询最相关的文本集。
- 上下文准备:从知识库中调取检索文档的文本内容;根据融合策略,系统会将这些文档拼接或单独处理。
- 答案生成:将查询与检索上下文输入生成器。
- 融合与输出:若生成了多候选输出(如每个检索文档对应一个输出),模型会通过边缘化或聚合生成最终答案,通常选取最可能的序列作为回复;系统还可附带输出所用的检索文段,为结果提供溯源依据。
这一流程既保持了实时性,又保证了答案的可验证性。更重要的是,RAG 的模块化结构允许开发者在检索或生成环节出现偏差时进行独立优化,使整个系统具备良好的可控性与可扩展性。
四、RAG 系统的评估
在明确了 RAG 的核心架构与执行逻辑之后,一个关键问题随之而来:如何科学地评估一个 RAG 系统,从而支撑测试、上线与迭代优化?
RAG 的评估是多维度的,其性能不仅依赖生成模型,也高度取决于检索流水线的质量。一个可靠的评估体系往往需要同时覆盖五大维度——检索准确率、生成质量、事实性、效率延迟、可扩展性。

图片由 Nano Banana Pro 生成
检索准确率:检索是 RAG 的信息入口,因此其质量几乎决定了最终输出的上限。如果检索不到正确文档,生成器再强也无法“无中生有”。这一维度通常关注系统是否成功找到了与用户问题真正相关的文本。
常用指标包括:
- Recall@k:查询的相关文档出现在前个检索结果中的比例;
- 平均倒数排名(MRR):首个相关文档排名的倒数平均值,奖励“高相关文档排名靠前”的检索结果;
- 平均准确率(MAP):评估所有相关文档的排序质量。
生成质量:生成模块负责最终回答,其质量不仅关乎语言表达是否自然,更重要的是——内容是否正确、可靠、基于证据。
评估指标主要包括:
- 精确匹配(EM)与F1得分:问答任务中衡量输出与标准答案的重合度;
- BLEU、ROUGE:问答任务中衡量输出与标准答案的重合度;;
- 事实忠实性/幻觉率:判断模型输出是否真正基于检索文档,而非凭空编造。
效率与延迟:RAG 常用于实时问答场景,因此系统响应速度至关重要。此维度主要关注:检索耗时、生成延迟、端到端响应时间、内存 / 显存 / 计算资源占用。
可扩展性:随着知识库规模不断增加,系统是否还能保持稳定、准确的表现?可扩展性评估关注:索引规模扩大后是否会显著降低准确率、新文档加入时是否需要重新训练模型、系统在大规模内容下的吞吐能力、“索引规模—准确率”之间的变化规律。
基准数据集:为了标准化 RAG 的评估体系,研究社区构建了多个覆盖不同任务类型的评测数据集,这些基准数据集构成了当前 RAG 系统性能对比的“行业标准”,包括:
- 开放域问答:自然问题(NQ)、TriviaQA、WebQuestions;
- 事实核查:FEVER、AveriTeC(侧重可验证性);
- 多任务基准:KILT,整合了维基百科上的问答、对话、槽位填充、实体链接等任务;
- 零样本检索:BEIR,覆盖生物医学、金融等31个零样本任务;
- 多轮推理:MTRAG,面向需序列检索与推理的多轮对话;
- 统一评估赛道:2024年起的TREC RAG赛道,基于MS MARCO数据集实现“检索、生成、来源支撑质量”的统一评估,核心指标为片段召回率与引用覆盖率。
1.检索增强生成评估系统(RAGAS)
RAGAS是专为RAG系统“事实性与锚定能力”设计的评估框架。
与传统“表层语言重合度”指标不同,RAGAS聚焦于“生成内容与检索文档的对齐性”,可提供“事实正确性”与“来源归因质量”的显性评估信号。通过系统性衡量“生成输出对检索证据的依赖程度”,RAGAS可识别并惩罚幻觉内容。
因此,在模型训练或迭代微调阶段引入RAGAS,可引导RAG系统生成“锚定可验证来源”的输出,显著提升事实准确率并降低幻觉发生率。
五、结语
在本文中,我们从 RAG 的核心概念出发,系统地梳理了它的工作原理、关键模块、执行流程与评估体系。
可以看到,RAG 的价值远不止于“让大模型查文档”这么简单——它真正改变了 LLM 的能力边界,使模型能够在准确性、可控性、可解释性与实时性之间找到新的平衡点。
本文只是整个系列的第一篇。在后续文章中,我们将继续深入:
RAG 的技术发展历程是什么?RAG 是如何在工业界实现大规模落地的?RAG 当前面临哪些挑战?又有哪些解决方案与未来优化方向?
RAG 仍处在高速发展时期,而我们正站在这场范式转变的前沿。希望这篇解读,能为你构建对 RAG 的系统理解,也为你在研究、工程或业务落地中的实践提供坚实基础。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。


👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
24万+

被折叠的 条评论
为什么被折叠?



