摘要。检索增强生成(RAG)在开放域问答中被证明是有效的。然而,相对于检索和合成组件,对该管道至关重要的分块过程往往没有得到足够的重视。本研究强调了分块在提高密集通道检索和端到端RAG管道性能方面的关键作用。然后,我们介绍了logits引导的多颗粒Chunker (LGMGC),这是一个将长文档拆分为上下文化的、自包含的不同粒度块的新框架。我们在两个基准数据集上的实验结果表明,LGMGC不仅改进了检索步骤,而且在集成到RAG管道时优于现有的分块方法。
单位: 上海交通大学;巴黎理工学院
1. introduction
开放域问答(ODQA)涉及从给定文档的内容中提取问题的精确答案,随着检索增强生成(RAG)模型b[12]的出现,已经取得了重大进展。这些模型利用大规模的预训练语言模型和检索系统来增强准确和上下文相关答案的生成。在经典的RAG管道中,文档最初被分割成独立的块,然后应用检索过程来识别给定查询的相关块。然后将检索到的带有查询的块作为提示传递给合成器LLM,以获得所需的响应。后续的研究主要集中在对RAG的两个主要方面进行改进:检索[10][7][16][3]和合成[20][17][1]。然而,很少有研究关注文档分块和分割的最佳解决方案。粒度和语义直观地对过程的精度起着重要的作用检索阶段。此外,尽管检索器的性能很好,但上下文信息的缺乏以及检索块中过多的无关信息会阻碍合成器LLM提取准确关键信息的能力。为了解决上述挑战,我们提出了一个新的LogitsGuided Multi-Granular Chunker框架。它在一个统一的框架内集成了两个分块模块:Logits-Guided Chunker和Multi-Granular Chunker,如图1所示。该过程首先将文档分割为语义上和上下文上一致的单元,利用来自较小规模LLM的logits信息。随后,这些基本单元(称为父块)被Multi-Granular Chunker进一步划分为不同粒度的子块,以响应不同类型的查询。我们的研究结果表明,与当前的分块方法相比,我们的方法在文章检索和下游问答任务上都表现良好。
2 Related Work 相关工作
一些早期的工作已经探索了信息检索的块优化。递归分块[8]使用基于预定义结构的分隔符层次结构将文本分割成单元。尽管它很简单,但这种方法可