文档分割模块终极优化指南，从基础到高阶，这一篇彻底讲透！

原创于 2025-12-21 11:15:00 发布 · 491 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #开源 #架构 #c#

一、检索增强生成的核心挑战

RAG 在回答问题时经常遇到许多挑战。这篇博客中，将深入探讨提升 RAG 性能的解决方案，提升RAG效果。

二、文档分割模块优化策略

2.1 为什么文档分割模块很重要？

选择合适的 chunk_size 是一个关键决策，可以从多个方面影响 RAG 系统的效率和准确性：

相关性和粒度 较小的 chunk_size，如 128，会产生更细粒度的块。然而，这种粒度存在风险：如果 similarity_top_k 设置像 2 这样严格，重要信息可能不会出现在检索到的顶部块中。相反，512 的块大小可能会在顶部块中包含所有必要的信息，确保查询的答案随时可用。
响应生成时间 随着 chunk_size 的增加，输入到 LLM 中生成答案的信息量也会增加。虽然这可以确保更全面的上下文，但也可能会降低系统速度。
挑战

如果你的块太小，可能不包括 LLM 需要回答用户查询的所有信息；
如果块太大，可能包含太多无关信息，会混淆 LLM 或可能太大而无法适应上下文大小。

任务特定分块 基于下游任务需要确定块的最佳长度以及每个块要有多少重叠。

高级任务如摘要需要更大的块大小，而低级任务如编码需要更小的块

trick 1: 小到大或父文档检索

ParentDocumentRetriever 通过分割和存储小块数据来实现平衡。在检索过程中，它首先获取小块，但随后查找这些块的父级 ID 并将这些较大的文档返回给 LLM

它在初始搜索阶段使用小文本块，随后向语言模型提供更大的相关文本块进行处理。

递归检索涉及在初始检索阶段获取较小的块以捕获关键语义含义。随后，在处理的后期阶段向 LLM 提供包含更多上下文信息的较大块。这种两步检索方法有助于在效率和提供丰富上下文的响应之间取得平衡。

步骤：

该过程涉及将原始大文档分解为较小的、更易管理的单元（称为子文档）和较大的块（称为父文档）。
它专注于为每个子文档创建嵌入，这些嵌入比每个完整父块嵌入更丰富和详细。它帮助框架识别包含与用户查询相关信息的最相关子文档。
一旦与子文档建立对齐，然后检索与该子文档相关的整个父文档。在图片中显示最终检索到父块。
检索父文档很重要，因为它为理解和响应用户的查询提供了更广泛的上下文。框架现在不仅仅依赖于子文档的内容，而是可以访问整个父文档。

小到大或父文档检索分块技术

trick 2: 句子窗口检索

这种分块技术与上述非常相似。句子窗口检索的核心思想是基于查询从自定义知识库中选择性地获取上下文，然后利用这个上下文的更广泛版本进行更稳健的文本生成。

这个过程涉及为检索嵌入有限的句子集，同时将这些句子周围的额外上下文（称为“窗口上下文”）单独存储并与之链接。一旦识别出最相似的句子，这个上下文就会在这些句子发送到大型语言模型（LLM）进行生成之前重新整合，从而丰富整体上下文理解。

解释句子窗口检索如何工作

RAG 中的句子窗口检索分块技术

trick 3: 提高数据质量 “垃圾进，垃圾出”

数据清洗在 RAG 框架中起着关键作用。RAG 解决方案的性能取决于数据清洗和组织的质量。删除不必要的信息，如特殊字符、不需要的元数据或文本。

删除无关文本/文档：删除所有我们不需要 LLM 回答的无关文档。同时删除噪声数据，包括删除特殊字符、停用词（如“the”和“a”等常用词）和 HTML 标签。
识别并纠正错误：包括拼写错误、打字错误和语法错误。
在分割的块中用名称替换代词可以在检索过程中增强语义重要性。

trick 4: 添加元数据

添加元数据，如概念和级别标签，以提高索引数据的质量。

添加元数据信息包括将引用的元数据（如日期和目的）集成到块中以用于过滤目的，以及整合元数据（如章节和参考文献的小节）以提高检索效率。

以下是元数据有用的一些场景：

如果你搜索项目时时效性是一个标准，你可以通过日期元数据进行排序
如果你搜索科学论文，并且事先知道你要找的信息总是位于特定部分，比如实验部分，你可以为每个块添加文章部分作为元数据，并对其进行过滤以仅匹配实验

元数据之所以有用，是因为它在向量搜索之上增加了一层结构化搜索。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述