大模型必备技能:RAG技术详解与实战,含学习资料,建议收藏

RAG虽然是最早应用的技术,也在不断的进化,AI系统的好坏,RAG的质量几乎起着决定性作用。优秀的RAG系统召回率几乎能做到100%,准确率能做到99%以上。本文来聊聊这些新技术。

RAG(检索增强生成)的5种文本分块策略


分块(Chunking)是RAG流程中的关键预处理步骤,其目的是将冗长的文档切分成更小、更易于管理的片段(chunks),以便于后续的向量化、检索,并最终提高大模型生成答案的质量。

1. 固定大小分块 (Fixed-size chunking)
  • 原理:这是最简单、最常用的策略。它预先设定两个关键参数:块的大小(如字符数或token数)和重叠量(overlap)。
  • 操作方式:像一个固定大小的滑动窗口一样在文本上移动。如图所示,它会先取第一段文本“Artificial intelligence is transforming technology”作为 Chunk 1。然后,窗口向后移动,但会包含上一块末尾的一部分内容(“transforming technology”)作为 Chunk 2 的开头,以此类推。
  • 优点:简单、快速、计算开销小。
  • 缺点:可能会生硬地切断完整的语义单元(如一个句子或一个概念),导致信息不完整。
  • 适用场景:文档结构不明确或对处理速度要求极高的场景。
2. 语义分块 (Semantic chunking)
  • 原理:根据文本内容的语义相关性语义连贯性来动态确定分块的边界,目标是让每个块都包含一个尽可能完整的语义主题。
  • 操作方式:如图所示,流程从创建一个初始块开始。系统会持续向当前块添加新的文本段落(sentences),并实时计算块内内容的余弦相似度(一种衡量向量间相似度的指标)。当新加入的文本导致整体相似度急剧下降时,说明语义发生了显著转折,此时就在此处切断,形成最终的块。然后开始下一个块的过程。
  • 优点:能产生语义上更连贯、更完整的块,检索质量通常更高。
  • 缺点:计算复杂度高,需要嵌入模型(Embedding Model)来将文本转化为向量并计算相似度。
  • 适用场景:对检索精度要求高的场景,如学术文献、技术文档等。
3. 递归分块 (Recursive chunking)
  • 原理:采用“分而治之”的思想,通过分层、递归的方式将文档由大变小。它使用一组预定义的分隔符(如 \n\n, \n, ., !, ?, …),并按优先级尝试分割。
  • 操作方式:如图所示,流程从整个文档开始。首先尝试用最高优先级的分隔符(如双换行符\n\n)进行分割。如果分割后得到的块仍然太大,就对这块大的文本递归地使用下一优先级的分隔符(如单换行符\n)再次分割,重复此过程,直到所有块的大小都满足要求。
  • 优点:比固定大小分块更能尊重段落和句子的自然边界,是实践中非常流行且有效的折中方案。
  • 缺点:分隔符的选择和优先级设置需要根据文档类型进行调整。
  • 适用场景:通用性很强,尤其适用于格式良好、有段落结构的文档。
4. 基于文档结构的分块 (Document structure-based chunking)
  • 原理:利用文档固有的逻辑结构标记(Markup)来进行分块。它假设文档本身具有清晰的结构,如标题、章节、段落等。
  • 操作方式:如图所示,直接按照 Title(标题)、Introduction(引言)、Section #1(章节1)、Section #2(章节2)、Conclusion(结论)等结构单元来划分文本。每个单元或其组合可以形成一个块。图中备注提到,如果某个结构单元(如一个章节)本身内容过长,可以与递归分块策略结合使用,对该章节进行进一步的递归分割。
  • 优点:分块的逻辑性与人类的理解方式高度一致,块的质量非常高。
  • 缺点严重依赖于文档本身是否具有良好的结构,对于纯文本或无格式文档效果不佳。
  • 适用场景:处理HTML、Markdown、PDF(带书签)、LaTeX等具有明确标签和结构的文档。
5. 基于大语言模型的分块 (LLM-based chunking)
  • 原理:将分块任务直接交给大语言模型来完成,利用其强大的语义理解能力。
  • 操作方式:如图所示,将整个或部分文档输入给LLM,并指令模型根据内容语义,自主地将文档划分为一系列连贯的、有意义的块。LLM可能会生成像 Chunk 1: [Title, Introduction], Chunk 2: [Introduction, Section #2, Conclusion] 等这样的输出。这种方法非常灵活,甚至可以理解跨段落的概念聚合。
  • 优点:智能化程度最高,能产生语义上最优的分块结果。
  • 缺点:成本最高、速度最慢,并且需要精心设计提示词(Prompt)。
  • 适用场景:当其他分块方法都无法满足极致精度要求,且不计较成本时的备选方案。

这五种策略从简单机械复杂智能,各有优劣。在实际应用中,通常需要根据文档类型应用场景和对成本与性能的权衡来选择最合适的策略,有时也会将多种策略组合使用。

传统RAG(检索增强生成)与HyDEGraph RAGAgentic RAG


1. 传统 RAG (Traditional RAG)

这是所有方案的基础,也是其他方案改进的起点。

  • 核心流程(如图的上半部分所示):

    1. 索引阶段:将“额外文档”通过嵌入模型编码成向量,并存入向量数据库中建立索引。
    2. 检索与生成阶段:当用户提出“查询”时,同样用嵌入模型将其编码为向量,然后在向量数据库中进行相似性搜索,找到最相关的文档片段。
    3. 将这些检索到的文档作为上下文,与原始查询一起组合成一个提示,发送给大语言模型,由LLM生成最终响应。
  • 优点:简单直接,能有效利用外部知识,减少LLM的幻觉。

  • 缺点:高度依赖“词袋”模型的向量相似性。如果用户查询用语和文档中的用语不匹配(例如,查询是“怎么养盆栽”,而文档中是“室内植物养护指南”),就可能检索不到最相关的信息,导致效果下降。

2. HyDE (Hypothetical Document Embeddings)

HyDE 旨在解决传统RAG查询与文档用语不匹配的问题。

  • 核心创新:在检索之前,先让LLM根据查询生成一个假设的答案或文档

  • 流程(如图下半部分所示):

    1. 用户输入“查询”。
    2. 首先将查询发送给LLM,让其生成一段“假设的文本”(Hypothetical text)。这段文本是LLM认为的、可能包含答案的理想文档的样式。
    3. 将这段生成的假设文本(而不是原始查询)通过嵌入模型编码,去向量数据库中进行相似性搜索。
    4. 后续步骤与传统RAG相同:用检索到的真实文档和原始查询一起提示LLM,得到最终响应。
  • 优点:生成的假设文本更丰富、更规范,能更好地与向量数据库中的文档在语义上对齐,从而显著提升检索质量,特别是在处理模糊或简短的查询时。

  • 缺点:增加了一次LLM调用,开销稍大,且生成的假设文本如果偏离太远,也可能带来噪声。

3. Graph RAG

Graph RAG 引入了知识图谱来捕捉文档中深层的、结构化的语义关系,超越传统的向量匹配。

  • 核心创新:在索引阶段,不是简单地将文档切成片段并向量化,而是先用LLM从文档中提取实体(Nodes)和关系(Relationships),构建成一个知识图谱。

  • 流程(如第二张图下半部分所示):

    1. 图生成:使用“LLM图生成器”处理“额外文档”,抽取出实体和关系,形成知识图谱。
    2. 对图谱中的实体和关系进行编码和索引(可能同时使用向量索引和图数据库)。
    3. 对于查询,既可以通过传统的向量相似性搜索,也可以利用图的特性进行图遍历,找到相关联的实体簇,从而获得更广泛、更相关的上下文信息。
  • 优点:能理解“苹果->生产->iPhone”这种复杂关系,可以进行多跳推理(例如,通过公司CEO关联到其公司的产品)。检索到的上下文不再是孤立的文本片段,而是一个相互关联的知识子图,信息量更大、逻辑性更强。

  • 缺点:构建图谱的成本高昂,技术复杂度也远高于前两种方案。

4. Agentic RAG

Agentic RAG 将智能体概念引入RAG,使整个过程从静态流程变为动态、循环的决策过程。

  • 核心创新:由一个LLM智能体作为“大脑”,自主决定如何执行检索任务。它可以根据情况重写查询选择数据源判断信息是否足够决定是否进行多轮检索

  • 流程(如第三张图下半部分所示):

    1. 用户输入“查询”。

    2. LLM智能体开始工作,其步骤可能包括:

      • 重写查询(Rewrite the initial query)以优化检索。
      • 判断是否需要更多细节(判断是否需更多细节)。
      • 选择工具/数据源(选数据源),可能包括向量数据库、互联网搜索、API工具等。
      • 执行检索并评估检索结果的相关性(相关性判断)。
    3. 这个“决策-执行-评估”的循环可能会进行多次,直到智能体认为它拥有了足够的信息来回答问题。

    4. 最终,智能体综合所有检索到的信息生成“最终响应”。

  • 优点:极其灵活和强大,能处理复杂、多步骤的查询任务,更接近人类的研究方式。它不再是一次性的检索,而是一个多轮的、目标驱动的过程。

  • 缺点:延迟最高,计算成本最大,并且需要非常精心地设计智能体的提示词和工具。

这四种方案代表了RAG技术从简单到复杂、从静态到动态的演进路径。

  • 传统RAG是基础且高效的方案。
  • HyDE通过优化查询端来提升基础RAG的效果。
  • Graph RAG通过优化知识表示(索引端)来挖掘深层信息。
  • Agentic RAG则通过引入智能体,彻底改变了RAG的执行范式,使其具备了解决超复杂问题的能力。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值