论文笔记-arXiv2024-Graph Retrieval-Augmented Generation: A Survey(小组pre,本篇笔记仅包含论文的第7部分)
论文下载链接: GraphRAG
Graph Retrieval-Augmented Generation: A Survey
检索增强生成RAG有效缓解了大语言模型的“幻觉”、缺乏特定领域知识和过时信息等问题。然而,数据库中不同实体之间复杂的关系结构给RAG带来了挑战。为了解决这一问题,研究人员提出了图检索增强生成(GraphRAG)。GraphRAG利用跨实体的结构信息来实现更精确更全面的检索,捕获知识之间的关系,并促进更精确和上下文感知的响应。
本文首次全面概述了GraphRAG方法,规范了GraphRAG工作流程,包括基于图的索引、图引导检索和图增强生成。然后,概述了每个阶段的核心技术和培训方法。此外,研究了 GraphRAG 的下游任务、应用领域、评估方法和工业用例。最后,探索了未来的研究方向,以激发进一步的探究并推动该领域的进展。
GraphRAG的框架如图:
7. Graph-Enhanced Generation
生成阶段是GraphRAG中的一个关键步骤,旨在将检索到的图数据与查询语句相集成,以提高响应质量。
如图,生成阶段可以分为四步:
-
根据下游任务选择生成器(对应7.1);
-
检索到的图数据转换为生成器兼容的格式(对应7.2);
-
生成器将查询语句和转换后的图数据作为输入来生成最终的响应;
-
根据生成增强技术进一步改善输出(对应7.3)。
7.1 生成器
生成器的选择通常取决于下游任务的类型。
7.1.1 GNNs—判别式任务
GNNs可以编码图数据,捕捉图结构中的节点特征和复杂关系,然后通过多层感知器处理该编码以生成预测结果。
这类生成器一般选用最经典的GNN模型,比如GCN和GAT等,也有一些使用GNN变体,比如HamQA。
7.1.2 LMs—判别式&生成式任务
对于仅编码的模型,比如BERT,LMs主要用途是判别式任务。类似于GNNs,LMs直接将输入文本编码,然后利用MLP将其映射到答案空间。
对于编码-解码模型和仅解码的模型,比如T5、GPT-4和LLaMA,LMs可以用于判别和生成式任务,直接处理文本输入并生成文本输出。
7.1.3 Hybrid Models—判别式&生成式任务
Hybrid Models是GNNs和LMs的结合,可以根据结合方式分为两类:
-
级联范式
GNN处理图数据,将其结构和关系信息封装成LM可以理解的形式。然后将转换后的数据输入LM,从而生成最终的文本响应。其中,最为典型的例子是prompt tuning。
-
并行范式
GNN和LM同时接收输入数据并协同工作以处理相同数据的不同方面。然后,通过另一个模型或一组规则来合并输出,以生成统一的响应,该响应集成了来自图形结构和文本内容的理解。
7.2 图结构
当使用GNN作为生成器时,图数据可以被直接编码。然而,当使用LM作为生成器时,需要将图数据转换为生成器适配的结构。
图结构主要包含两种:图语言和图嵌入。
7.2.1 图语言
图描述语言规定了一个统一的语法和语义框架,用于描述图中的节点和交互,可以分为五类,如图所示:
-
邻接/边表
邻接表枚举每个顶点的直接邻居(比如KG-GPT),边表详细介绍图中的所有边。
-
自然语言
将图数据转换为描述性且利于理解的语言,比如一些研究人员提出预先为每种类型的边定义一个自然语言模板,然后根据其类型将每条边的端点填充到相应的模板中。
-
类代码
考虑到自然语言描述和其他一维序列本质上不足以直接表示图数据的二维结构,许多研究人员探索使用类似代码的格式来表示图结构,比如GML。
-
语法树
语法树具有层次结构,也有拓扑顺序。该方法保留了更多的结构信息,增强了对图内在属性的理解和分析,比如GRAPHTEXT。
-
节点序列
节点序列通常是使用预定义规则生成的,包含结构性知识,比如GNN-RAG。
由于不同图语言存在不同的特性,其选择可以显著影响下游任务的性能。
7.2.2 图嵌入
图语言方法转换的文本序列可能会导致上下文过长,从而超出LLM的处理限制。因此,LLM即使使用图语言也很难完全理解图形结构。
图嵌入方法将图表示为嵌入,核心挑战是如何将图嵌入与文本表示集成到统一的语义空间中。现有研究主要关注prompt tuning方法,还有一些研究使用FiD(Fusion-in-Decoder)的方法,首先将图数据转换为文本,使用基于LM的编码器对其进行编码。
7.3 生成增强
研究人员探索了各种生成增强技术来提高输出响应的质量。这些方法根据其应用阶段可以分为三类:生成前增强、生成中增强和生成后增强。
7.3.1 预生成增强技术
预生成增强技术和检索操作没有明确的界限。检索是指从原始图中检索知识以及合并和修剪检索到的知识,预生成增强就是检索操作的后半部分,即知识合并和剪枝。
一般而言,使用预生成增强技术的方法主要是在语义上丰富检索到的图数据。还有一些方法利用检索到的图数据重写查询,或者结合图数据之外的附加信息等。
7.3.2 中期生成增强技术
中期生成增强是指在生成过程中应用的技术,通常根据中间结果或者上下文检索调整生成策略,比如TIARA。
7.3.3 后期生成增强技术
后期生成增强是指在初始响应生成之后的增强技术,主要涉及整合多个生成响应以获得最终响应。
一些方法侧重于在不同条件或者输入下集成同一生成器的输出,还有一些方法选择组合不同生成器的响应。