在检索增强生成(RAG)的世界里,**文档分块(Document Chunking)**是一切的基石。如何将一篇长文档切分成有意义、不大不小的知识片段(Chunks),直接决定了后续检索的精度和最终生成答案的质量。然而,绝大多数现有的分块方法,无论是简单的固定大小分割,还是更智能的语义分割,都遵循一个共同的、却存在根本性缺陷的范式:线性分块(Linear Chunking)。它们将文档视为一个扁平的、一维的句子或段落序列。
这种线性视角,在面对结构层次分明、信息组织复杂的真实世界文档(如学术论文、技术手册、法律合同)时,显得捉襟见肘。用户的查询有时需要一个高屋建瓴的章节摘要,有时又需要一个具体到某个段落的精确细节。线性的、固定粒度的分块,难以动态地满足这种多层次的信息需求。
来自腾讯优图实验室的研究者们提出了HiChunk(Hierarchical Chunking),一个旨在颠覆传统线性分块的层级化文档结构框架。它不再将被动地“切割”文档,而是主动地利用微调后的大型语言模型(LLM)来“理解”并“重构”文档的内在层级结构,并配合一个创新的Auto-Merge检索算法,实现了检索粒度的动态自适应。
1. 引言:RAG需要“结构化”的知识
传统分块方法的“原罪”在于其上下文粒度的静态性。
- 固定大小分块 (Fixed-size Chunking):简单粗暴,极易切断语义完整的句子或段落。 <
HiChunk:基于LLM的层级化文档分块

订阅专栏 解锁全文
815

被折叠的 条评论
为什么被折叠?



