RAPTOR：树结构的索引和检索系统的递归抽象处理

原创

已于 2024-05-02 16:44:09 修改 · 1.8k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自然语言处理

于 2024-03-20 09:47:16 首次发布

RAPTER模型通过递归嵌入、聚类和总结文本块，构建层次化的树结构，改善检索增强语言模型对长文档的理解。在多任务和复杂推理任务中，与传统方法相比，RAPTER模型表现更优。

论文地址：https://arxiv.org/pdf/2401.18059.pdf

摘要

增强型检索语言模型能够更好地适应世界状态的变化，并整合长尾知识，然而现有大多数方法仅能从检索语料库中检索到较短的连续文本片段，这限制了对整个文档上下文的整体理解。我们引入一种新颖的方法，即递归地嵌入、聚类及总结文本块，自下而上构建一个包含不同层次抽象的树状结构。在推理阶段，我们的RAPTOR模型会从这个树中检索信息，跨过冗长文档的不同抽象层次进行信息整合。受控实验表明，在多个任务上，采用递归摘要进行检索相较于传统的增强型检索语言模型有显著的性能提升。在涉及复杂、多步骤推理的问答任务上，我们展示了最先进的结果；例如，通过将RAPTOR检索与GPT-4相结合，我们在QuALITY基准测试上实现了绝对精度提升20%，达到了新的最佳性能水平。

概述

在构建检索增强生成（Retrieval-Augmented Generation, RAG）系统的过程中，文档分块是一个关键步骤，它影响着系统能否检索到足够的信息来回答用户的问题。目前，大多数系统采用滑动窗口方法进行分块，并通过调整窗口大小来优化分块效果。然而，这种方法存在一个主要缺点：检索到的往往是短且连续的文本块，这对于需要理解整个文档才能回答的问题来说，可能无法提供足够的信息。

论文指出，分块策略应该根据用户查询的具体需求来定制。有些查询可能只需要一个或几个特定的文本块，或者甚至只需要块中的某一部分。此外，文本通常包含多个主题，并且具有层次化的结构，这意味着分块策略需要能够捕捉到文本的这种复杂性。

为了解决这些问题，作者提出了RAPTOR（Recursive Abstractive Processing for Tree-Organized Retrieval）系统，这是一个树结构的索引和检索系统。RAPTOR的设计目的是捕捉文本的多尺度、不同层次的信息。系统通过对文本块进行总结，为大型语言模型（Large Language Models, LLMs）提供不同层次的信息，从而增强模型对复杂问题的理解和回答能力。

总结来说，RAPTOR系统通过其递归抽象处理和树形组织检索的设计，旨在改进现有RAG系统的分块策略，以更好地适应不同查询的需求，并提高对多层次、多主题文本的理解和检索效率。