RAG文档分块新思路:LGMGC如何提升文档分块的语义连贯性?
原创 致Great ChallengeHub 2025年01月23日 23:41 北京
今天给大家分享一篇关于RAG文本切块的论文:
论文题目:Passage Segmentation of Documents for Extractive Question Answering
论文地址:https://arxiv.org/pdf/2501.09940
论文概述
在开放域问答(Open-Domain Question Answering, ODQA)任务中,文档分块(chunking)过程中存在的不足。特别是在基于检索增强生成(Retrieval-Augmented Generation, RAG)模型的管道中,文档被分割成独立的块,然后通过检索过程来识别与给定查询相关的块,这些相关块与查询一起被传递给语言模型(LLM)以生成期望的响应。
然而,现有研究往往更多关注于检索和生成组件的改进,而忽视了文档分块和分割的重要性。文档分块的粒度和语义在检索阶段的精确度中起着重要作用,而检索到的块中缺乏上下文信息或包含过多不相关信息可能会阻碍语言模型提取准确关键信息的能力,即使检索器的性能很好。
为了解决这些挑战,论文提出了一个新的框架——Logits-Guided Multi-Granular Chunker(LGMGC),该框架将长文档分割成不同粒度的上下文化、自包含的块。通过实验结果,论文证明了LGMGC不仅能够改善检索步骤,而且在集成到RAG管道中时,相较于现有的分块方法也能取得更好的性能。
相关工作
论文中提到了以下与文档分块(chunking)和检索增强生成(RAG)相关的研究工作:
<