在检索增强生成(RAG)系统中,文档分块(Chunking)是连接信息检索与生成模型的关键环节。合理的分块策略能让检索更精准、生成更贴合上下文,而不当的分块可能导致语义割裂或信息冗余。本文将系统介绍 5 种主流的分块实现方法,并结合实际场景提供选型策略。
1、 固定大小分块(Fixed-size chunking)
这是最基础的分块方式,通过预设字符数、token 数或句子数切割文档。例如设定每块包含 500 个字符,超出则截断,同时可设置重叠部分(如 50 字符)避免语义割裂。
实现原理:基于字符串长度或 token 计数的机械切割,无需理解文本内容,常见于 LangChain 的RecursiveCharacterTextSplitter基础模式。
优点:实现简单,计算成本极低,适合结构简单、语义分散的文本(如新闻资讯、短评)。
缺点:可能粗暴切断完整语义单元(如拆分一个数学公式、法律条款),在长句密集或专业术语多的文本中表现差。
适用场景:快速原型开发、非结构化且无明显逻辑层次的文本(如社交媒体动态、短消息)。
2、 语义分块(Semantic chunking)
基于文本语义关联性切割,通过 NLP 模型识别句子、段落间的语义相似度,将关联紧密的内容归为一块。例如用 Sentence-BERT 计算句子向量相似度,当相似度低于阈值时拆分。
实现原理:借助预训练语言模型(如 BERT、Sentence Transformers)提取文本语义特征,通过聚类或相似度阈值划分边界。
优点:最大程度保留语义完整性,适合长文本逻辑连贯的场景(如论文、小说)。
缺点:依赖 NLP 模型精度,计算成本高,对非连续语义文本(如表格、代码)效果有限。
3、 递归分块(Recursive chunking)
递归分块是一种逐步细化的分块方法。先将整个文档视为一个大块,依据固定长度、语义相似度等规则分割成小块,若分割后的块仍满足分割条件,则继续递归分割,直至得到符合要求的块。
实现原理:类似于分治算法,不断将大块分割成小块,逐步实现理想的分块大小和语义完整性。分割时可结合多种规则,如先按固定长度初步分割,再对语义不完整的块通过语义分析调整。
优点 :
- 能在一定程度上平衡分块大小和语义完整性,通过逐步细化让分块结果更合理。
- 适应性较强,可根据不同文档特点调整分割规则和阈值。
缺点 :
- 实现逻辑相对复杂,需设计合理的递归终止条件和分割规则,否则易出现分块过细或过粗问题。
- 处理效率受影响,尤其对于复杂文档,递归过程会消耗较多计算资源。
适用场景:适用于文档内容结构复杂,且对分块的大小和语义完整性都有一定要求的场景,如综合性报告、多主题的文档等。
4、 基于文档结构分块(Document structure-based)
基于文档结构分块是依据文档自身结构特征进行分块的方法,利用标题、章节、段落、列表等结构信息作为分块依据。
实现原理:通过解析文档格式信息(如 HTML、PDF、Word 等格式中的标签、样式),识别结构元素,按元素分块,例如以章节或段落为单位。
优点 :
- 充分利用文档天然结构,分块结果与逻辑结构一致,便于理解和使用。
- 保证块的结构完整性,减少信息割裂可能性。
缺点:
- 对结构不清晰或无明显结构的文档(如纯文本文件)适用性差。
- 不同格式文档结构解析方法不同,增加实现复杂性。
适用场景:适用于具有清晰结构的文档,如论文、书籍、规范文件等。
5、 基于LLM分块(LLM-based chunking)
将文档输入到大型语言模型(LLM)中,通过提示词引导 LLM 对文档进行分析,依据文档语义、主题变化等因素,识别分块点并分割文档。
优点 :
- 分块效果好:能深入理解文档深层语义和上下文关系,分块结果契合人类理解与需求。
- 适应性强:可处理各类、各复杂度文档,对语义复杂、结构不清晰的文档也有良好分块效果。
缺点 :
- 资源依赖高:依赖大型语言模型,消耗大量计算资源,处理成本高。
- 处理速度慢:不适合大规模文档快速处理。
- 受提示词影响:分块结果受提示词设计影响,需精心设计提示词才能达理想效果。
适用场景:适用于对分块效果要求极高,对处理成本和速度要求不高的场景,如重要研究报告、复杂法律文档等。
6、技术选型建议
-
推荐首选
语义分块(多数场景效果最佳,但需业务测试)。
-
关键考量
内容性质、嵌入模型能力、计算资源等。
-
总结对比表
7、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。