你的RAG为何总“答非所问“？90%的人都不知道核心原理

AI编程朝暮

已于 2025-03-26 17:35:14 修改

阅读量1.7k

点赞数 33

CC 4.0 BY-SA版权

分类专栏：大模型应用编程文章标签： AI编程 rag 大模型应用开发 rag分片策略 rag原理

于 2025-03-22 21:43:14 首次发布

本文链接：https://blog.youkuaiyun.com/lean_yao/article/details/146446980

大模型应用编程专栏收录该内容

3 篇文章

订阅专栏

大家好，我是朝暮，大厂研发高管，全栈工程师。专注AI工具、智能体、编程。

引言

大模型也要外挂

2025年是大模型场景爆发的元年，随着时间推移，大众对于大模型的应用需求不再局限于泛化知识。此时，你是否思考过，怎样才能更好地结合企业或个人的私域数据，打造出专属智脑呢？不少人在搭建知识库时可能会遇到这样的困扰：为何自己搭建的知识库表现欠佳，如同“人工智障”，而别人的却宛如真正的“人工智能”？其实，答案就藏在RAG（Retrieval-Augmented Generation，检索增强生成）技术里，它也被大家俗称为大模型的“外挂”。

RAG这个名字，想必很多朋友并不陌生，甚至有人已经在Coze、Dify、Fastgpt等SAAS服务中使用过。可能有人会觉得，这不过就是把文档扔给大模型处理，没什么特别的。但实际上，如果你这么想，可就低估了它的复杂性。

今天，我们将深入分析RAG的核心原理，探寻让大模型回答更加精准的通关秘诀。

一、什么是RAG以及如何解决幻觉问题

什么是RAG

RAG 是一种结合检索（Retrieval）和生成（Generation）的技术，主要用于让 AI 在回答问题或生成内容时，能够更好地利用外部知识库，而不是完全依赖于自身预训练的知识。

举个例子，你如果问大模型自己公司的经营数据状况，它可能回答不上来，或者会一本正经的胡说八道。但是如果你将企业的经营数据外挂在它上面，它就能基于这部分数据进行分析回答。

RAG如何解决幻觉

AI 幻觉是指 AI 生成的内容与事实不符或缺乏依据。RAG 通过以下方式减少幻觉：

精准检索外部知识 RAG通过向量数据库检索与问题高度相关的权威数据（如企业文档、学术论文等），替代模型依赖自身参数生成答案的模式。例如，医疗问答场景中优先引用最新医学指南而非模型记忆。
多级过滤机制 采用混合检索（语义+关键词）、重排序（Rerank）等技术优化结果。例如，阿里云通过元数据标注（文档类型、时效性）提升检索精度，过滤过时或低质信息。

二、RAG的工作原理及如何构建

1、RAG的工作原理

索引阶段 将外部知识（如文档、数据库等）分割为文本块，通过嵌入模型（如BERT）转换为向量并存入向量数据库。这一过程需考虑分块粒度、元数据标注等优化手段。
检索阶段 用户提问时，模型将问题向量化，通过相似度计算（如余弦距离）从向量库中检索最相关的文本块。先进技术可能结合混合检索（向量+关键词）和重排序（Rerank）优化结果。
生成阶段 将检索到的上下文与用户提问整合为提示词（Prompt），输入大模型生成最终答案。此过程可结合对话历史、多模态数据等。

2、RAG的构建流程

准备数据：根据实际业务需求整理相关的数据材料，包括但不限于：text、word，xlxs、csv、markdown、pdf等，其中text的文本处理起来最友好，其他需要额外转换处理。
数据分片：整理好的数据需要进行分片，就是将长文本切割成独立的一小段，方便存储。
数据向量：切割好的文本需要调用量化模型，通过相似度计算（如余弦距离），生成对应的向量数据。目前，比较对中文优化的量化模型有nomic-embed-text(768维度)、bge-large-zh(1024维度)。
建立索引：将向量数据存储在向量库中，我们需要设置检索规则，是混合检索(向量+关键字)还是Rerank(重排序)。

三、分块的重要性及五个维度

1、分块的重要性

在RAG（检索增强生成）系统中，分块（Chunking）是构建高效知识库和优化模型性能的核心环节。分块就像是小孩的营养餐，如果营养跟不上身体发育必然会出现问题。比如：在12345的问答场景中，我们将问题和答案分到两个不同的块中，检索时只匹配到了问题，这个时候大模型自然无法基于正确答案去推理生成。

2、RAG的分块重要性主要体现在以下五个维度：

提升检索效率与精度：分块通过将长文本切割为合理大小的片段，使向量嵌入更聚焦于局部语义。用户查询的向量与分块后的内容在维度上更匹配，相似度计算更精准，从而提高召回结果的相关性。
保障语义与上下文的完整性：过大的块可能导致语义模糊（如多个主题混杂），而过小的块可能丢失上下文（如拆散完整句子）。理想的分块策略需在两者间平衡，确保每个块包含独立语义单元。
优化生成质量与可解释性：分块为模型提供精准的上下文锚点，限制其基于可信数据生成答案。实验显示，当分块内容覆盖用户问题75%以上时，模型幻觉率降低60%。
灵活适应多场景需求：分块技术可处理非文本数据（如图片、表格），例如对图像生成摘要后再分块检索，实现跨模态知识融合。
解决长文本处理的固有难题：大模型的输入(Tokens)长度有限，分块允许系统在单次请求中整合多段相关文本，避免因长文本截断导致信息遗漏。