RAG检索增强生成技术的演进及其应用

最新推荐文章于 2025-11-23 19:13:18 发布

原创最新推荐文章于 2025-11-23 19:13:18 发布 · 751 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #transformer #深度学习 #ai #系统架构 #agi #目标检测

传统RAG

传统RAG(Retrieval-Augmented Generation检索增强生成)通过外挂知识库的方式降低大模型幻觉，解决了大模型即使不通过微调，也可以使大模型具备专业的领域知识, 是最早期出现的RAG架构。

传统 RAG 核心流程

索引构建：将原始文档转换成向量, 存储至向量数据库。这个阶段一般包含：文档清洗(去重,降噪,脱敏等)→切块chunk→向量化embedding→入库(FAISS/Milvus/ pgvector等向量数据库)四大步骤处理。

查询阶段：根据用户输入, 去向量数据库检索出相关信息。

生成阶段：文本信息与LLM结合生成—-将检索出的信息与原始的用户输入交给大模型，引导模型输出更准确的答案。

传统 RAG 的局限性

仅能处理纯文本数据，无法识别图像中的视觉信息(如产品图片的细节、图表中的数据关系)、音频中的语音内容(如会议录音的关键观点)；

知识库多为静态知识库，如果知识更新，需要重新构建索引（embedding处理）;

通常只是进行一轮的知识库检索，并且将检索的结果与原始提示词进行简单拼接后，直接提交给大模型进行生成结果。

当输入为非文本(如用户上传一张故障图片并提问 “这是什么问题”)时，传统RAG 完全无法响应，只能依赖LLM的 “幻觉性猜测”。

总结：检索→拼接→生成，适用于简单的企业内部各类知识问答场景。

传统 RAG单模态的升级

多模态RAG(Multimodal RAG)

在传统 RAG仅聚焦文本数据的基础上,多模态RAG(Multimodal RAG)将检索范围扩展到文本、图像、音频、视频、表格等多种类型的数据，通过统一的技术框架实现 “跨模态检索-多源信息融合-精准生成” 的闭环，解决了传统RAG无法处理非文本信息的核心痛点，更贴合真实世界中 “多模态信息共存” 的场景需求(如产品手册含图文、医疗报告含影像与文字、社交媒体含视频与文案等)。

要理解多模态RAG，需先明确其与传统RAG的核心差异——本质是“数据维度”与“处理逻辑”的扩展，而非对RAG核心流程的颠覆。多模态RAG是“检索增强生成”与“多模态学习” 的融合技术：

核心目标：让LLM不仅能基于文本知识回答，还能结合图像、音频等非文本知识,生成更全面、更精准的多模态响应(如回答时附图表解释、生成含文字说明的图像)；

关键特征：支持 “跨模态输入 - 跨模态检索 - 跨模态生成”，例如：

- 输入：一张 “手机屏幕碎裂” 的图片 + 文字提问 “维修需要哪些配件？”；

- 检索：同时从“维修手册文本库”中找“屏幕维修流程”、从“配件图片库”中找“适配屏幕型号图”；

- 生成：文字说明“需更换屏幕总成+背光板”，并附配件图片与安装步骤示意图。

总结：将文本+图片/表格/音频/视频/图纸等都纳入检索与理解。

Agentic RAG

Agentic RAG(代理式检索增强生成)是将AI代理引入RAG流程的技术,通过动态规划、工具调用和迭代优化解决传统RAG的局限性。 ‌

传统的RAG,信息检索只是一个必须而又被动的检索步骤,是大模型回答前必须的一个前置检索步骤,用于给大模型回答提供炮弹。而Agentic RAG相当于在传统RAG的基础上, 引入了智能体(Agent)的概念, 使检索过程更加智能化和自主化。根据用户的需求，Agentic RAG可以决定是否需要检索、何时进行检索、如何利用检索结果, 并且可以进行多轮检索, 对检索结果自己进行迭代和优化。所以要实现Agentic RAG, 就需要创建一个智能体，而检索过程将被封装成可以自主调用、评估、迭代和优化的工具，难度更高。