RAG文档切片新方案HiChunk：LLM重构RAG文档分块

HiChunk：基于LLM的层级化文档分块

kakaZhui

已于 2025-10-28 22:30:57 修改

阅读量640

点赞数 18

CC 4.0 BY-SA版权

分类专栏：大模型Agent入门与代码实战大模型实践之知识库RAG 文章标签：重构 AIGC LLM RAG 人工智能

于 2025-10-27 22:01:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/kakaZhui/article/details/153984985

大模型Agent入门与代码实战同时被 2 个专栏收录

61 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大模型实践之知识库RAG

61 篇文章 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

在检索增强生成（RAG）的世界里，**文档分块（Document Chunking）**是一切的基石。如何将一篇长文档切分成有意义、不大不小的知识片段（Chunks），直接决定了后续检索的精度和最终生成答案的质量。然而，绝大多数现有的分块方法，无论是简单的固定大小分割，还是更智能的语义分割，都遵循一个共同的、却存在根本性缺陷的范式：线性分块（Linear Chunking）。它们将文档视为一个扁平的、一维的句子或段落序列。

这种线性视角，在面对结构层次分明、信息组织复杂的真实世界文档（如学术论文、技术手册、法律合同）时，显得捉襟见肘。用户的查询有时需要一个高屋建瓴的章节摘要，有时又需要一个具体到某个段落的精确细节。线性的、固定粒度的分块，难以动态地满足这种多层次的信息需求。

来自腾讯优图实验室的研究者们提出了HiChunk（Hierarchical Chunking），一个旨在颠覆传统线性分块的层级化文档结构框架。它不再将被动地“切割”文档，而是主动地利用微调后的大型语言模型（LLM）来“理解”并“重构”文档的内在层级结构，并配合一个创新的Auto-Merge检索算法，实现了检索粒度的动态自适应。

1. 引言：RAG需要“结构化”的知识

传统分块方法的“原罪”在于其上下文粒度的静态性。

固定大小分块 (Fixed-size Chunking)：简单粗暴，极易切断语义完整的句子或段落。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

kakaZhui 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。