深度学习秘籍：RAG算法全解析，从入门到精通，一篇文章就够了！

原创于 2025-08-05 14:05:49 发布 · 558 阅读

CC 4.0 BY-SA版权

文章标签：

#人工智能 #程序员 #大模型 #chatgpt #产品经理 #AI #大模型学习

如果说2023年见证了大语言模型的“寒武纪大爆发”，那么2024年则是多模态大模型“元年”。GPT-4o的出现让大家见识到多模态能力引入，给下游应用生态带来的巨大改变。随之而来的，RAG技术也将逐渐从单语言模态的RAG进化到多模态RAG。本文将带大家速览多模态RAG技术的原理及实现。

什么是RAG：Retrieval Augmented Generation，检索增强生成。是一种结合了信息检索技术和大型语言模型提示功能的框架。它通过从数据源检索信息来辅助LLM生成答案，提高了模型在知识密集型任务中的准确性和可信度。

我们为什么需要RAG：大型语言模型通常基于固定的历史数据集进行训练，这意味着它们的知识是过时的，无法涵盖最新的信息或特定领域的专业知识。RAG的目的是通过引入额外知识库，检索其中的相关信息，并根据检索结果给予用户回答。这也可以显著减少大模型因为并不具备相关知识，而出现的“幻觉”现象。当然我们也可以直接把整个数据库作为LLM的prompt输入，但由于transformer架构O(N2)复杂度的限制，LLM支持的最长输入长度通常有限，多数支持到128k token已经是极限，使得在面临更长知识库输入时，RAG依然是当下唯一可行的解决方案。

如何使用RAG？了解了什么是RGA，同步也理解了RAG的检索、增强和生成。那我们如何使用RAG呢？接下来以RAG搭建知识问答系统具体步骤为例，来讲解如何使用RAG？

数据准备与知识库构建：
- 收集数据：首先，需要收集与问答系统相关的各种数据，这些数据可以来自文档、网页、数据库等多种来源。
- 数据清洗：对收集到的数据进行清洗，去除噪声、重复项和无关信息，确保数据的质量和准确性。
- 知识库构建：将清洗后的数据构建成知识库。这通常包括将文本分割成较小的片段（chunks），使用文本嵌入模型（如GLM）将这些片段转换成向量，并将这些向量存储在向量数据库（如FAISS、Milvus等）中。
检索模块设计：
- 问题向量化：当用户输入查询问题时，使用相同的文本嵌入模型将问题转换成向量。
- 相似度检索：在向量数据库中检索与问题向量最相似的知识库片段（chunks）。这通常通过计算向量之间的相似度（如余弦相似度）来实现。
- 结果排序：根据相似度得分对检索到的结果进行排序，选择最相关的片段作为后续生成的输入。
生成模块设计：
- 上下文融合：将检索到的相关片段与原始问题合并，形成更丰富的上下文信息。
- 大语言模型生成：使用大语言模型（如GLM）基于上述上下文信息生成回答。大语言模型会学习如何根据检索到的信息来生成准确、有用的回答。

大家可以结合自己的业务领域知识，开始搭建医疗、法律、产品知识问答。先搭建Demo，然后工作中不断完善知识库问答对。

二、RAG的原理、流程及架构

RAG工作原理是什么？大型语言模型（LLM）面临两个问题，第一个问题是LLM会产生幻觉，第二个是LLM的知识中断。

知识截止：当 LLM 返回的信息与模型的训练数据相比过时时。每个基础模型都有知识截止，这意味着其知识仅限于训练时可用的数据。
幻觉：当模型自信地做出错误反应时，就会发生幻觉。

检索增强生成 (RAG) 摆脱了知识限制，整合了外部数据，从外部知识库中检索相关信息，增强模型的生成能力。

RAG工作流程是什么？

通过检索增强技术，将用户查询与索引知识融合，利用大语言模型生成准确回答。

知识准备：收集并转换知识文档为文本数据，进行预处理和索引。
嵌入与索引：使用嵌入模型将文本转换为向量，并存储在向量数据库中。
查询检索：用户查询转换为向量，从数据库中检索相关知识。
提示增强：结合检索结果构建增强提示模版。
生成回答：大语言模型根据增强模版生成准确回答。

RAG技术架构是什么？

RAG技术架构主要由两个核心模块组成，检索模块（Retriever）和生成模块（Generator）。

检索模块（Retriever）：
- 文本嵌入：使用预训练的文本嵌入模型（如GLM）将查询和文档转换成向量表示，以便在向量空间中进行相似度计算。
- 向量搜索：利用高效的向量搜索技术（如FAISS、Milvus等向量数据库）在向量空间中检索与查询向量最相似的文档或段落。
- 双塔模型：检索模块常采用双塔模型（Dual-Encoder）进行高效的向量化检索。双塔模型由两个独立的编码器组成，一个用于编码查询，另一个用于编码文档。这两个编码器将查询和文档映射到相同的向量空间中，以便进行相似度计算。
生成模块（Generator）：
- 强大的生成模型：生成模块通常使用在大规模数据上预训练的生成模型（如GLM），这些模型在生成自然语言文本方面表现出色。
- 上下文融合：生成模块将检索到的相关文档与原始查询合并，形成更丰富的上下文信息，作为生成模型的输入。
- 生成过程：生成模型根据输入的上下文信息，生成连贯、准确且信息丰富的回答或文本。

结合高效的检索模块（Retriever）与强大的生成模型（Generator），实现基于外部知识增强的自然语言生成能力。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】