一、RAG是什么?三个核心词讲透本质
RAG,即检索增强生成(Retrieval-Augmented Generation),这个名称本身就藏着它的技术精髓——通过“检索-增强-生成”的协同运作,解决了大语言模型(LLM)知识滞后、易“ hallucinate(幻觉)”的痛点。下面这张图直观呈现了三者的关系:

这三个环节并非简单叠加,而是形成了高效的技术闭环:
- 检索(Retrieval):打破知识壁垒的“信息猎手” 不同于LLM依赖训练数据的“被动回忆”,检索环节会主动从向量数据库等外部知识库中,精准抓取与用户问题相关的信息片段。它借助近似最近邻搜索(ANN)算法,能在海量数据中快速定位语义匹配的内容,让模型轻松获取训练后出现的新数据(比如2024年行业年报、企业内部规章制度等),从根源上解决了LLM知识“过时”的问题。
- 增强(Augmented):低成本升级的“能力放大器” 检索到的优质信息会被注入LLM的上下文窗口,相当于给模型“临时补充知识库”。这种动态增强方式,既避免了重新训练大模型所需的巨额算力成本,又巧妙解决了上下文窗口容量有限的矛盾,让模型能基于权威信息输出内容,而非凭空捏造。
- 生成(Generation):输出可信结果的“语言工匠” LLM会结合用户原始查询和检索到的知识,进行语义融合与语言组织,最终输出连贯、结构化的自然语言。更重要的是,生成结果会自动标注来源(如“依据某公司2024年Q1财报第3章”),不仅降低了幻觉风险,还让回答的可信度和可解释性大幅提升。
简单来说,RAG通过“主动获取外部知识-动态扩展模型能力-生成可信结果”的路径,将LLM从“封闭的知识容器”转变为“开放的知识处理器”,成为平衡AI实时性、准确性与使用成本的最优解之一。
二、RAG七步工作流:从知识入库到智能回答的完整链路
下面这张图片清晰的表明了RAG的7个工作步骤:

步骤1:知识分块(Chunking)——构建可检索的知识单元
外部知识(如PDF报告或私有数据库)首先被切割为语义完整的片段,这一过程需兼顾文本连贯性与嵌入模型输入限制,例如表格需保持结构完整避免跨块分割,段落则按主题边界切分,其核心目标是生成既能独立表达语义又适配向量化处理的文本单元,为后续精准检索奠定基础。

常见的分块起码有以下5种策略

步骤2:生成嵌入(Embedding)——语义的向量化映射
每个知识块通过预训练的嵌入模型(如基于Transformer的双编码器)转化为高维向量,这一过程捕捉文本的深层语义特征(如“抗过拟合技术”与“正则化方法”的关联性),使非结构化的自然语言被编码为数学空间中的可计算对象,为相似性检索提供可比对的数学表征。

这里使用的嵌入模型是“上下文嵌入模型”(不是单词嵌入模型),因此像双编码器(我们上次讨论过)这样的模型在这里高度相关。
通过一致的训练,模型可以学习不同单词在句子中如何相互关联。它了解哪些单词经常组合在一起,以及它们如何融入句子的整体含义。
这个学习过程有助于 BERT 为单词和句子创建嵌入,这些嵌入是上下文化的,这与 Glove 和 Word2Vec 等早期嵌入不同:

上下文化意味着嵌入模型可以根据单词使用的上下文动态生成单词的嵌入。因此,如果一个单词出现在不同的上下文中,模型将返回不同的表示形式。比如:苹果,可能是一个水果,也可能是一个品牌,这就需要根据上下文嵌入模型的语义理解,将“苹果”嵌入到不同的语义空间中。
步骤3:向量存储(Vector Storage)——构建动态知识记忆体
生成的向量与原始文本、元数据(如来源文档页码)共同存入向量数据库,该数据库不仅充当海量向量的高效存储器,更通过近似最近邻索引(如HNSW)支持毫秒级相似性搜索,其设计本质是将人类知识转化为机器可实时查询的“语义记忆网络”。

向量数据库充当 RAG 应用程序的内存,这是我们存储所有附加知识的地方,使用这些知识将回答用户的查询。
向量数据库还存储元数据、原始内容以及向量嵌入。
至此,我们的向量数据库已创建完成,并已添加了相关信息。如有需要,还可以在此基础上添加更多内容。
步骤4:用户查询嵌入(Query Embedding)——意图的数学表达
用户问题(如“解释RAGFlow的多模态支持”)被同一嵌入模型转化为查询向量,此时查询向量与知识块向量处于同一语义空间,使“多模态支持”等抽象概念可被量化为与数据库向量相似度计算的数学对象,实现意图的精准数学表达。

首先,用户的查询信息也会先通过Embeding模型转化为“查询的embedding”信息。

步骤5:语义检索(Semantic Retrieval)——知识库的智能筛选
查询向量通过近似最近邻算法(ANN)在向量库中快速扫描,召回Top-K个最相关的知识块(如包含“OCR提取图片文字”“表格转Markdown”的段落),此步骤融合语义匹配(向量相似度)与关键词匹配(BM25)的优势,确保结果既覆盖语义关联内容又包含精确术语命中。

步骤6:重排序(Reranking)——相关性的精细化校准
检索后,所选块可能需要进一步细化,以确保最相关的信息得到优先级排序。
初步检索结果需经交叉编码器(Cross-Encoder)进行精细化评分,该模型深度分析查询与每个知识块的交互关系(如判断“表格处理说明”是否真正解答“多模态支持”),通过重排序将最契合的片段置于前列,有效解决语义相似但主题偏离的噪声干扰问题。

步骤7:增强生成(Augmented Generation)——知识的融合与表达
LLM接收原始查询与重排序后的知识块,通过注意力机制整合信息并生成最终回复,例如综合“OCR技术”“表格转换流程”等片段输出结构化答案:“RAGFlow通过OCR提取图像文本,将表格转为Markdown以保持结构,实现多模态内容的统一语义处理”,此过程严格遵循检索依据生成文本,显著降低幻觉并提升专业性。
七步流程形成 “知识固化→意图解析→动态增强→可控输出” 的完整链条,每一步的输出均为下一步的输入,构成紧密耦合的增强回路。
RAG系统通过检索、增强、生成的精密协作,将LLM从封闭的文本生成器进化为开放环境下的认知代理,其七步流程既是技术框架亦是知识流动的管道。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。


👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。


👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
2445

被折叠的 条评论
为什么被折叠?



