大模型必备技能：RAG技术详解与实战，含学习资料，建议收藏

原创于 2026-01-05 20:52:13 发布 · 1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #人工智能 #产品经理 #转行 #大模型 #ai #程序员

RAG虽然是最早应用的技术，也在不断的进化，AI系统的好坏，RAG的质量几乎起着决定性作用。优秀的RAG系统召回率几乎能做到100%，准确率能做到99%以上。本文来聊聊这些新技术。

RAG（检索增强生成）的5种文本分块策略

分块（Chunking）是RAG流程中的关键预处理步骤，其目的是将冗长的文档切分成更小、更易于管理的片段（chunks），以便于后续的向量化、检索，并最终提高大模型生成答案的质量。

1. 固定大小分块 (Fixed-size chunking)

原理：这是最简单、最常用的策略。它预先设定两个关键参数：块的大小（如字符数或token数）和重叠量（overlap）。
操作方式：像一个固定大小的滑动窗口一样在文本上移动。如图所示，它会先取第一段文本“Artificial intelligence is transforming technology”作为 Chunk 1。然后，窗口向后移动，但会包含上一块末尾的一部分内容（“transforming technology”）作为 Chunk 2 的开头，以此类推。
优点：简单、快速、计算开销小。
缺点：可能会生硬地切断完整的语义单元（如一个句子或一个概念），导致信息不完整。
适用场景：文档结构不明确或对处理速度要求极高的场景。

2. 语义分块 (Semantic chunking)

原理：根据文本内容的语义相关性或语义连贯性来动态确定分块的边界，目标是让每个块都包含一个尽可能完整的语义主题。
操作方式：如图所示，流程从创建一个初始块开始。系统会持续向当前块添加新的文本段落（sentences），并实时计算块内内容的余弦相似度（一种衡量向量间相似度的指标）。当新加入的文本导致整体相似度急剧下降时，说明语义发生了显著转折，此时就在此处切断，形成最终的块。然后开始下一个块的过程。
优点：能产生语义上更连贯、更完整的块，检索质量通常更高。
缺点：计算复杂度高，需要嵌入模型（Embedding Model）来将文本转化为向量并计算相似度。
适用场景：对检索精度要求高的场景，如学术文献、技术文档等。

3. 递归分块 (Recursive chunking)

原理：采用“分而治之”的思想，通过分层、递归的方式将文档由大变小。它使用一组预定义的分隔符（如 \n\n, \n, ., !, ?, …），并按优先级尝试分割。
操作方式：如图所示，流程从整个文档开始。首先尝试用最高优先级的分隔符（如双换行符\n\n）进行分割。如果分割后得到的块仍然太大，就对这块大的文本递归地使用下一优先级的分隔符（如单换行符\n）再次分割，重复此过程，直到所有块的大小都满足要求。
优点：比固定大小分块更能尊重段落和句子的自然边界，是实践中非常流行且有效的折中方案。
缺点：分隔符的选择和优先级设置需要根据文档类型进行调整。
适用场景：通用性很强，尤其适用于格式良好、有段落结构的文档。

4. 基于文档结构的分块 (Document structure-based chunking)

原理：利用文档固有的逻辑结构或标记（Markup）来进行分块。它假设文档本身具有清晰的结构，如标题、章节、段落等。
操作方式：如图所示，直接按照 Title（标题）、Introduction（引言）、Section #1（章节1）、Section #2（章节2）、Conclusion（结论）等结构单元来划分文本。每个单元或其组合可以形成一个块。图中备注提到，如果某个结构单元（如一个章节）本身内容过长，可以与递归分块策略结合使用，对该章节进行进一步的递归分割。
优点：分块的逻辑性与人类的理解方式高度一致，块的质量非常高。
缺点严重依赖于文档本身是否具有良好的结构，对于纯文本或无格式文档效果不佳。
适用场景：处理HTML、Markdown、PDF（带书签）、LaTeX等具有明确标签和结构的文档。

5. 基于大语言模型的分块 (LLM-based chunking)

原理：将分块任务直接交给大语言模型来完成，利用其强大的语义理解能力。
操作方式：如图所示，将整个或部分文档输入给LLM，并指令模型根据内容语义，自主地将文档划分为一系列连贯的、有意义的块。LLM可能会生成像 Chunk 1: [Title, Introduction], Chunk 2: [Introduction, Section #2, Conclusion] 等这样的输出。这种方法非常灵活，甚至可以理解跨段落的概念聚合。
优点：智能化程度最高，能产生语义上最优的分块结果。
缺点：成本最高、速度最慢，并且需要精心设计提示词（Prompt）。
适用场景：当其他分块方法都无法满足极致精度要求，且不计较成本时的备选方案。

这五种策略从简单机械到复杂智能，各有优劣。在实际应用中，通常需要根据文档类型、应用场景和对成本与性能的权衡来选择最合适的策略，有时也会将多种策略组合使用。

传统RAG（检索增强生成）与HyDE、Graph RAG 和 Agentic RAG。

1. 传统 RAG (Traditional RAG)

这是所有方案的基础，也是其他方案改进的起点。

核心流程（如图的上半部分所示）：
1. 索引阶段：将“额外文档”通过嵌入模型编码成向量，并存入向量数据库中建立索引。
2. 检索与生成阶段：当用户提出“查询”时，同样用嵌入模型将其编码为向量，然后在向量数据库中进行相似性搜索，找到最相关的文档片段。
3. 将这些检索到的文档作为上下文，与原始查询一起组合成一个提示，发送给大语言模型，由LLM生成最终响应。
优点：简单直接，能有效利用外部知识，减少LLM的幻觉。
缺点：高度依赖“词袋”模型的向量相似性。如果用户查询用语和文档中的用语不匹配（例如，查询是“怎么养盆栽”，而文档中是“室内植物养护指南”），就可能检索不到最相关的信息，导致效果下降。

2. HyDE (Hypothetical Document Embeddings)

HyDE 旨在解决传统RAG查询与文档用语不匹配的问题。

核心创新：在检索之前，先让LLM根据查询生成一个假设的答案或文档。
流程（如图下半部分所示）：
1. 用户输入“查询”。
2. 首先将查询发送给LLM，让其生成一段“假设的文本”（Hypothetical text）。这段文本是LLM认为的、可能包含答案的理想文档的样式。
3. 将这段生成的假设文本（而不是原始查询）通过嵌入模型编码，去向量数据库中进行相似性搜索。
4. 后续步骤与传统RAG相同：用检索到的真实文档和原始查询一起提示LLM，得到最终响应。
优点：生成的假设文本更丰富、更规范，能更好地与向量数据库中的文档在语义上对齐，从而显著提升检索质量，特别是在处理模糊或简短的查询时。
缺点：增加了一次LLM调用，开销稍大，且生成的假设文本如果偏离太远，也可能带来噪声。

3. Graph RAG

Graph RAG 引入了知识图谱来捕捉文档中深层的、结构化的语义关系，超越传统的向量匹配。

核心创新：在索引阶段，不是简单地将文档切成片段并向量化，而是先用LLM从文档中提取实体（Nodes）和关系（Relationships），构建成一个知识图谱。
流程（如第二张图下半部分所示）：
1. 图生成：使用“LLM图生成器”处理“额外文档”，抽取出实体和关系，形成知识图谱。
2. 对图谱中的实体和关系进行编码和索引（可能同时使用向量索引和图数据库）。
3. 对于查询，既可以通过传统的向量相似性搜索，也可以利用图的特性进行图遍历，找到相关联的实体簇，从而获得更广泛、更相关的上下文信息。
优点：能理解“苹果->生产->iPhone”这种复杂关系，可以进行多跳推理（例如，通过公司CEO关联到其公司的产品）。检索到的上下文不再是孤立的文本片段，而是一个相互关联的知识子图，信息量更大、逻辑性更强。
缺点：构建图谱的成本高昂，技术复杂度也远高于前两种方案。

4. Agentic RAG

Agentic RAG 将智能体概念引入RAG，使整个过程从静态流程变为动态、循环的决策过程。

核心创新：由一个LLM智能体作为“大脑”，自主决定如何执行检索任务。它可以根据情况重写查询、选择数据源、判断信息是否足够、决定是否进行多轮检索。
流程（如第三张图下半部分所示）：
1. 用户输入“查询”。
2. LLM智能体开始工作，其步骤可能包括：
  - 重写查询（Rewrite the initial query）以优化检索。
  - 判断是否需要更多细节（判断是否需更多细节）。
  - 选择工具/数据源（选数据源），可能包括向量数据库、互联网搜索、API工具等。
  - 执行检索并评估检索结果的相关性（相关性判断）。
3. 这个“决策-执行-评估”的循环可能会进行多次，直到智能体认为它拥有了足够的信息来回答问题。
4. 最终，智能体综合所有检索到的信息生成“最终响应”。
优点：极其灵活和强大，能处理复杂、多步骤的查询任务，更接近人类的研究方式。它不再是一次性的检索，而是一个多轮的、目标驱动的过程。
缺点：延迟最高，计算成本最大，并且需要非常精心地设计智能体的提示词和工具。