自chatgpt诞生以来,RAG的热度一直未减,尽管落地时存在各种挑战,但一直是大家落地LLM,减少幻觉的必备选项。
从2023年到现在,大致经历了从基础RAG到高级RAG,再到GraphRAG,到如今的Agentic RAG的不断的技术演进,最新的当然还可以和MCP结合,产生更多奇妙的用法。
基础RAG(2023)
-
核心特点:
-
- 简单的“检索-然后-生成”模式,检索和生成分离。
- 静态向量检索,基于单向量相似度检索。
-
优点:
-
- 流程简单直接。
-
缺点:
-
- 缺乏动态调整能力,固定检索策略,难以适应复杂问题。
-
核心技术:
-
- 基础向量检索。
- 简单上下文增强。
- 关键词匹配机制。
- 适配简单问答场景。
高级RAG(2023-2024)
-
核心特点:
-
- 混合检索策略,结合稠密向量和稀疏检索。
- 自动化多个查询变体,扩大检索范围。
-
优点:
-
- 提高检索多样性和准确性。
- 引入反馈机制优化检索质量。
-
核心技术:
-
- 混合检索与重排序。
- 自适应参数调整。
- 适配式检索机制。
- 检索质量评估。
- 相关技术:HyDE、RAPTOR 等。
GraphRAG(2024)
-
核心特点:
-
- 知识图谱融合,结合知识图谱与向量数据库。
- 实体链接与关系推理,增强认知深度。
-
优点:
-
- 支持多跳查询和复杂关系推理。
-
核心技术:
-
- 知识图谱构建与查询。
- 实体识别与链接。
- 图结构与向量混合检索。
- 语义关系推理。
- 结构化查询增强。
- 相关技术:Neo4j + 向量数据库。
推理型RAG(2025)
-
核心特点:
-
- 思维链增强,引入Chain-of-Thought推理。
- 自反思机制,具备自我评估和纠错能力。
-
优点:
-
- 提升复杂问题处理能力。
- 支持多步骤分解推理。
-
核心技术:
-
- 思维链(CoT)推理。
- 自反思与验证机制。
- 不确定性量化。
- 反事实检测。
- 相关技术:DeepSeek R1 + ReAct。
Agentic RAG(2025+)
-
核心特点:
-
- 自主智能体架构,RAG作为智能体生态系统的核心组件。
- 工具使用与规划,自主选择和使用外部工具。
-
优点:
-
- 支持多模态信息检索与生成。
- 自主决策和规划。
-
核心技术:
-
- 智能体架构与编排。
- 工具使用与规划。
- 自主决策机制。
- 持续学习与适应。
- 相关技术:Claude + AutoGPT。
2025年及以后的发展趋势
- 多模态混合检索:整合文本、图像、视频等多模态数据。
- 自适应知识更新:自动更新知识库,保持时效性。
- 领域专家系统:针对特定领域(如法律、医疗)优化RAG系统。
- 协作式RAG:多智能体协同工作,支持复杂任务分解与协作。
- 可解释性增强:提供检索和推理过程的透明解释。
- 个性化知识网络:根据用户背景构建个性化知识图谱。
RAG技术的发展从基础检索逐步向知识融合、智能推理和智能体协作演进。未来将更加注重多模态融合、知识推理、自主决策和领域专业化,从“检索增强生成”向“知识增强智能”转变。
基础RAG概述
基础RAG是最初的检索增强生成模式,通过简单的文档检索提升大语言模型的应答质量。
核心特点
-
简单“检索-然后-生成”模式
-
- 先进行向量检索获取相关文档,然后将检索结果和用户问题一同传给大模型进行处理,增强回答质量。
-
静态向量检索
-
- 对于待回答的问题,使用预先计算好的向量匹配最相似的文档片段,不会动态调整检索策略。
-
固定检索策略
-
- 设定固定阈值、检索参数和固定的检索数量,没有根据问题复杂度动态调整的能力。
-
局部上下文增强
-
- 仅提供与当前问题直接相关的本地上下文,缺乏对知识的关联性和推理能力的增强。
核心技术
-
向量检索技术
-
- 密集向量检索
- 相似度算法优化
- 基础文本切分
-
实现框架
-
- LangChain
- LlamaIndex
- Embeddings模型
-
应用场景
-
- 知识库问答
- 简单文档检索
- 客服问答系统
代表性实现
- LangChain + Embeddings
- LewisRAG(2020)原始论文
- Faiss/Milvus向量库
局限与挑战
- 检索结果质量完全依赖于初始向量相似度计算。
- 缺乏上下文理解与自适应调整检索能力。
- 无法处理多步推理与复杂查询需求。
高级RAG概述
高级RAG通过多策略融合的增强检索技术,显著提升了检索精度与质量。
核心特点
-
混合检索策略
-
- 结合密集向量检索和稀疏检索技术(如BM25),提高检索多样性和精度。
-
多查询检索
-
- 自动生成多个查询变体,扩大检索范围,捕获更多相关知识。
-
检索量评价
-
- 引入交叉验证,评估检索结果质量,支持检索优化。
-
重排序机制
-
- 对检索结果进行二次排序,提升最相关内容的排名。
技术创新
-
混合检索技术
-
- 向量检索与关键词检索融合。
- 多模态检索集成。
- 自适应检索策略切换。
-
查询优化
-
- 自动扩展与查询重写。
- 多版本并行检索技术。
- 上下文感知查询增强。
-
质量优化
-
- 检索结果质量评估。
- 基于相似度的重排序。
- 检索与生成协同优化。
代表性技术与实现
- LlamaIndex + 混合检索
- HyDE技术
- RAPTOR检索技术
相比基础RAG的优势
- 提高检索召回率与准确率。
- 降低查询理解偏差,更好处理复杂问题。
- 支持上下文感知的检索优化。
应用场景
-
复杂文档检索
-
- 多主题长文档智能检索与理解。
-
企业知识库
-
- 跨部门专业知识的高精度检索。
-
多维度数据分析
-
- 从多来源检索信息支持决策。
GraphRAG通过知识图谱融合的检索增强生成,提升了对复杂知识关系的理解与推理能力。
核心特点
-
知识图谱融合
-
- 结合图数据结构与传统向量检索,增强关系认知能力,处理实体间复杂联系。
-
实体链接与关系推理
-
- 识别文本中的实体并链接到知识图谱,支持多跳推理与因果关系理解。
-
多路推理增强
-
- 通过图结构支持多条推理路径和复杂关系推理,增强认知深度。
-
强结构化知识理解
-
- 将非结构化文本转化为结构化知识,增强模型的知识表示能力。
核心技术
-
知识图谱建模与查询
-
- 知识图谱存储与查询。
- 实体识别与链接。
- 语义化图谱推理。
-
图神经网络与融合
-
- 图神经网络模型。
- 图结构嵌入技术。
- 多模态知识融合。
-
语义理解与推理
-
- 语义关系推理。
- 结构化问答增强。
- 复杂推理链生成。
代表性实现
- Neo4j + 向量数据库
- 图数据处理框架
- 知识图谱推理引擎
应用场景
- 复杂知识关系推理:支持多步查询。
- 企业知识图谱集成:提升专业领域问答质量。
- 降低幻觉产生:增强答案可靠性。
- 处理结构化与非结构化数据混合场景:强化多来源数据关联与综合分析能力。
应用优势
-
技术提升
-
- 提升复杂知识关系推理能力。
- 降低幻觉产生,增强答案可靠性。
- 处理结构化与非结构化数据的混合场景。
-
业务价值
-
- 企业知识图谱集成,提升专业领域问答质量。
- 支持专业知识推理,如医疗诊断、法律分析。
- 强化多来源数据关联与综合分析能力。
推理型RAG
- 概述:融合思维链推理与检索的高级模式,具备复杂思考与自主决策能力。
思维链推理过程
- 分析用户问题核心需求,涉及多个方面。
- 查询产品详细规格及了解相关法规。
- 进行计算验证推理,决定下一步操作。
核心特点
- 思维链增强:自主思考和推理,Step-by-Step逻辑思考。
- 自反思机制:自我反思和判断,反馈迭代优化输出。
- 多步骤分解推理:分解复杂问题,逐步解决。
- 动态检索能力:根据中间结果动态调整检索策略。
核心技术
-
推理框架技术:
-
- 思维链(CoT)推理。
- 自反思与反馈机制。
- 递归深度思考。
- 不确定性识别。
- 决策树推理。
-
检索增强能力:
-
- 动态检索决策。
- 推理引导检索。
- 上下文检索优化。
- DeepSeek R1支持。
- ReAct交互式检索推理。
代表性实现与框架
- DeepSeek R1 + ReAct。
- 思维链增强框架。
- 自反馈迭代系统。
应用场景
- 医疗诊断辅助:多步推理分析病历、症状和医学文献。
- 金融分析决策:推理分析金融数据,提供投资建议。
- 代码分析与调试:逐步推理理解代码逻辑,发现并修复程序缺陷。
Agentic RAG
- 概述:智能体驱动的检索增强生成范式,具备自主行动与任务规划能力。
核心特点
- 自主智能体架构:由多个专业化智能体组成的协作网络,各智能体负责特定任务,共同解决复杂问题。
- 工具使用与规划:能够主动选择和使用外部工具,为复杂任务制定多步执行计划,扩展解决问题的能力范围。
- 多模态理解与生成:支持对文本、图像、音频等多种模态的理解和处理,生成富媒体内容,提升用户体验。
- 持续学习与适应:具备自主学习能力,不断从交互和反馈中优化行为和知识,适应复杂多变的环境。
技术架构
-
智能体核心能力:
-
- 智能体规划与调度系统。
- 多模态融合处理技术。
- 自主决策算法。
- 工具使用与调用框架。
- 自主学习与优化机制。
-
多智能体协作生态:
-
- 智能体间通信协议。
- 任务分解与协作机制。
- 知识共享与同步。
- 冲突解决与共识算法。
- 多智能体学习框架。
代表性实现
- Claude + AutoGPT。
- 工具增强型RAG系统。
- Agentic RAG结合了先进的大语言模型与自主智能体架构,创造出具有自主能力的系统。
应用场景
- 个人智能助手:全方位生活、工作辅助与代理。
- 企业决策支持:复杂商业分析、预测与建议。
- 创意内容生成:多媒体创作与设计自动化。
- 科研探索:自动实验设计、文献分析与假设生成。
未来展望
-
技术演进:
-
- 更强大的多智能体协作框架。
- 自适应个性化智能体生态。
- 真实世界交互与感知能力。
-
行业影响:
-
- 知识工作者生产力革命。
- 复杂决策场景自动化。
- 人机协作新范式。
未来的RAG除了以Agentic 的方式来进一步演进,还可和MCP相结合,解耦,解决更多复杂场景的问题。
基于MCP的RAG系统通过标准化协议,将知识检索服务解耦为独立模块,带来以下优势:
-
标准化工具调用:MCP提供统一接口规范,降低集成成本
-
解耦设计:将模型调用与业务逻辑分离,便于独立升级和维护
-
灵活扩展:轻松添加新数据源和功能模块,如混合检索、多模态内容等
-
工程实践友好:符合软件工程最佳实践,便于团队协作开发。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。