本文深入探讨RAG系统中分块策略的关键作用,详细解析22种从基础到高级的分块方法,包括按换行符、定长、滑动窗口等基础策略,以及按文档层级、关键词、实体、主题等高级策略。作者强调分块是RAG系统成败的决定性因素,正确选择分块策略能有效解决模型"幻觉"问题,提升系统性能,为不同数据类型提供量身定制的解决方案。
1、RAG 系统的“痛点”:分块
对于许多 AI 工程师来说,检索增强生成(RAG)是一个让人又爱又恨的技术。理论上,它非常简单:从你的私有中知识库找到相关信息,然后让大语言模型(LLM)基于这些信息生成回答。但在实际操作中,面对海量混乱的数据,你往往会陷入无尽的调试循环:

- 调整文本块(Chunking)
- 切换嵌入模型(Embedding models)
- 更换检索器(Retrievers)
- 微调排序器(Rankers)
- 重写提示词(Prompts)
即便如此,你可能还是会收到模型冷冰冰的回复:“我找不到足够的信息来回答你的问题。”更糟糕的是,它还可能一本正经地输出完全错误的答案,也就是我们常说的“幻觉”。
2、核心秘诀:分块的艺术
RAG 系统中有许多复杂的组件,但分块(Chunking)才是默默决定整个系统成败的关键。不同的数据类型、文件格式、内容结构和使用场景,都需要量身定制的分块策略。一旦分块出错,你的模型就会“摸不着头脑”,无法精准地捕捉到核心信息。
为了解决这个难题,本文将深入解析 22 种分块策略,从基础到进阶,并为你提供何时该使用哪种策略的指南,让你的 RAG 系统真正高效运转。
下文详细剖析之。
RAG 21 种分块策略剖析
一、基础分块策略(处理简单的文本结构)
1. 基础分块法(按换行符分割)
- 原理:遇到换行符就分割文本,简单直接。
- 适用场景:适用于内容按行分隔的文本,比如:笔记、FAQ、聊天记录或每行都包含完整语义的转录稿。
2. 定长分块法(固定大小分块)
- 原理:按固定的字符数或单词数切割文本,即使会切断句子或语义单元。
- 适用场景:适用于原始、杂乱的非结构化文本,比如:扫描文档、质量较差的转录稿。
3. 滑动窗口分块法
- 原理:类似定长分块,但每个文本块与前一块有重叠,以保持上下文的连贯性。
- 适用场景:适合需要保持长句间逻辑关系的文本,比如:议论文、叙述性报告。
4. 按句分块法
- 原理:在句子结尾(句号、问号、感叹号)处分割文本。
- 适用场景:适用于语义清晰的规整文本,比如:技术博客、文档摘要。
5. 按段分块法
- 原理:依据段落(通常以双换行符为界)分割文本。
- 适用场景:当按句分块过于零碎时,或处理已具备段落结构的文档,比如:博客文章、研究报告。
6. 按页分块法
- 原理:将每个物理页面视为一个独立的文本块。
- 适用场景:适用于有固定页面的文档,比如:PDF、演示文稿,以及需要引用页码的检索场景。
二、高级分块策略(处理复杂的数据结构)
7. 按预定结构分块法
- 原理:根据固定的结构化元素(比如:HTML 标签、JSON 字段)分割文本。
- 适用场景:处理系统日志、JSON 记录、CSV 文件或 HTML 文档等结构化数据。
8. 基于文档层级的分块法
- 原理:根据文档本身的层级结构(标题、子标题、章节)进行分块。
- 适用场景:适用于有清晰章节结构的技术文章、操作手册、学术论文。
9. 基于关键词的分块法
- 原理:在预设关键词出现的地方分割文本,将它们作为新的逻辑断点。
- 适用场景:文档没有标题但有标志性关键词(如“Note”、“Summary”)时使用。
10. 基于实体的分块法
- 原理:使用命名实体识别(NER)技术,将与特定实体(人物、地点、产品)相关的文本分组。
- 适用场景:处理新闻报道、法律合同或任何实体对理解至关重要的文件。
11. 基于词元数的分块法
- 原理:通过分词器(Tokenizer)按词元数量分割文本。
- 适用场景:适用于无标题、无段落的非结构化文档,尤其是在 LLM 词元限制较低时。
12. 基于主题的分块法
- 原理:使用主题建模或聚类算法,将语义相关的句子或段落合并为一组。
- 适用场景:文档涵盖多个主题,且主题转换平缓,没有明确的标题或关键词标记。
13. 表格感知分块法
- 原理:独立识别并处理表格内容,将其转换为 JSON 或 Markdown 格式。
- 适用场景:处理包含表格的文档。
14. 内容感知分块法
- 原理:根据内容类型(段落、表格、列表)动态调整分块策略。
- 适用场景:处理混合格式的文档,需保持原生格式完整性的场景。
15. 上下文增强分块法
- 原理:在嵌入之前,使用 LLM 为每个文本块注入简短且相关的上下文。
- 适用场景:处理财报、合同等复杂文档,前提是知识库内容在 LLM 词元限制内。
16. 语义分块法
- 原理:基于嵌入相似度,聚合语义相关的句子或段落。
- 适用场景:当基础分块法失效时,或处理包含混杂主题的长文档。
17. 递归分块法
- 原理:先使用大粒度分隔符(比如:段落)分块,如果分块过大,再递归使用小粒度分隔符(比如:句子)继续分割,直到满足大小要求。
- 适用场景:处理句子长度不规则、不可预测的文本,如访谈记录。
18. 嵌入优先分块法
- 原理:先将所有句子嵌入,再根据相邻句子的相似度合并或拆分。
- 适用场景:适用于完全无结构的文档,或当基础方法效果不佳时。
19. 基于大模型/智能体的分块法
- 原理:将分块决策完全交给 LLM,由其自主判断如何分割文本。
- 适用场景:内容非常复杂、结构不明确,需要类似人类判断力来分块的场景。
20. 分层分块法
- 原理:将文本按多个层次(章节、段落)分块,以不同粒度检索信息。
- 适用场景:处理有清晰层次结构的文档,希望同时探索整体概述和详细信息的场景。
21. 多模态分块法
- 原理:针对不同类型的内容(文本、图像、表格)采用不同的分块策略。
- 适用场景:处理包含多种媒体形式的文档。
22. BONUS:混合分块法
-
原理:融合多种分块技术、启发式规则和 LLM,以提升分块的可靠性。
-
适用场景:当单一方法不足以应对复杂数据结构时。
好了,这就是我今天想分享的内容。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~

① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

以上资料如何领取?

为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!


这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


以上全套大模型资料如何领取?

24万+

被折叠的 条评论
为什么被折叠?



