ICLR24|Think-on-Graph:基于知识图谱上的LLMs推理_think on graph的具体实现逻辑-优快云博客

本文链接：https://blog.youkuaiyun.com/bagell/article/details/143875846

Introduction

LLMs已经在各种自然语言处理任务中展现出了显著的性能。这些模型利用对大量文本语料库的预训练技术，生成连贯且符合上下文的响应。尽管表现令人印象深刻，但LLMs在面对需要深度和负责任推理的复杂知识推理任务时存在显著的局限性，有以下几点原因，首先，LLMs通常无法准确回答需要超出预训练阶段包含的专业知识的问题(如下图a所示)，或需要长逻辑链和多跳知识推理的问题。其次，LLMs缺乏责任感、可解释性和透明度，引发了关于幻觉问题。第三，大模型训练过程耗时且昂贵，使得保持其知识更新变得具有挑战性。

对于这些挑战，一个有效的解决方案就是整合外部知识，如知识图谱（KGs），以帮助改进LLM的推理。KGs提供了结构化、明确且可编辑的知识表示，呈现出一种补充策略，以减轻LLMs的局限性。研究人员已经探索了将KGs作为外部知识源来减轻LLMs中的幻觉。而这些方法遵循一种常规：从KGs中检索信息，相应地增强提示，并输入增强后的提示到LLMs（如上图b所示)，在本文中，我们将这种范式称为“LLM⊕KG”。尽管此方法整合LLM和KG的力量，在这个范式中，LLM扮演翻译者的角色，将输入问题转换为机器可理解的命令，用于KG搜索和推理，但它不直接参与图推理过程。同时，松耦合的LLM ⊕ KG范式有其自身的局限性，其成功在很大程度上取决于KG的完整性和高质量。例如，在上图b中，尽管LLM成功识别了回答问题所需的必要关系类型，但由于缺少“多数党”这一关系，导致无法检索到正确答案。

基于上述思考，本文提出了一个新的紧密耦合的“LLM ⊗ KG”范式，其中知识图谱（KGs）和大型语言模型（LLMs）协同工作，互补彼此在图推理每一步中的能力。如上图c所示，由于缺少“多数党”这一关系，导致了上图b中的失败，这可以通过LLM代理发现的参考三元组（Australia, prime minister, Anthony Albanese）来补充，该代理具有动态推理能力，以及来自LLM固有知识库Anthony Albanese所属政党信息。通过这种方式，LLM成功地利用从KGs检索到的可靠知识生成了正确答案。

而本文针对此范式，本文提出了一个算法框架**“Think-on-Graph”**即LLMs在知识“图”上逐步“思考”推理路径，用于进行深入、负责任和高效的LLM推理。同时采用束搜索算法在KG/LLM推理中，ToG允许LLM动态探索KG中的多个推理路径，并相应地做出决策。给定一个输入问题，ToG首先识别初始实体，然后迭代地调用LLM通过探索（通过“在图上”步骤在KG中寻找相关三元组）和推理（通过“思考”步骤决定最相关的三元组）检索相关的三元组，直到通过束搜索中的顶级-N推理路径收集到足够的信息回答问题（由LLMs在“思考”步骤中判断）或达到预定义的最大搜索深度。

ToG的优势可以概括为以下几点：(1) 深度推理：ToG从KGs中提取多样化和多跳推理路径作为LLM推理的基础，增强了LLMs对知识密集型任务的深度推理能力。(2) 负责任的推理：明确、可编辑的推理路径提高了LLMs推理过程的可解释性，并使得模型输出的来源可以追溯和纠正。(3) 灵活性和效率：ToG是一个即插即用框架，可以无缝应用于各种LLMs和KGs。同时，在ToG框架下，知识可以通过KG频繁更新，而不是通过LLM更新，后者的更新既昂贵又缓慢。c) ToG增强了小型LLMs的推理能力，使其能与大型LLMs竞争。

Methods

ToG通过要求LLM在知识图谱上执行束搜索来实现“LLM ⊗ KG”范式。具体来说，它提示LLM迭代地在KGs上探索多个可能的推理路径，直到LLM确定基于当前推理路径可以回答问题。ToG在每次迭代后都会更新并维护问题的top-N推理路径P = ，其中N表示束搜索的宽度。ToG的整个推理过程包含以下3个阶段：初始化、探索和推理.

Think on Graph

INITIALIZATION OF GRAPH SEARCH

给定一个问题，给定一个问题，ToG利用LLM来定位知识图谱上推理路径的初始实体。这个阶段可以看作是初始化top-N推理路径P,ToG首先提示LLMs自动提取问题中的主题实体，并获取问题中top-N的主题实体,主题实体可能小于n。

EXPLORATION

在第D次迭代的开始，每条路径由由D-1个三元组组成，即由D-1个三元组组成，即=，其中和分别表示主题和客体实体，是它们之间的特定关系，和是相互连接的。集合P中的尾实体和关系的集合分别表示为。

第D次迭代的探索阶段旨在利用LLM从当前top-N个实体集合的邻近实体中识别出与问题最相关的top-N个实体，并使用扩展top-N个推理路径P。为了解决使用LLM处理大量邻近实体的复杂性，本文实施了一个两步探索策略：首先，探索重要的关系，然后使用选定的关系指导实体探索。

Relation Exploration

关系探索是束搜索过程中的一部分，它的深度为1，宽度为N，从到。整个过程可以分解为两个步骤：搜索和剪枝。LLM作为一个代理自动完成这个过程。

第一步搜索：在第D次迭代的开始，关系探索阶段首先为每个推理路径与搜索与尾实体相关联的关系。这些关系被聚合成，在下图情况下，={堪培拉}，表示与堪培拉内外相连的所有关系的集合。值得注意的是，搜索过程可以通过执行附录中显示的两个简单的预定义形式查询轻松完成，这使得ToG能够很好地适应不同的知识图谱，而无需任何训练成本。

第二步剪枝：一旦从关系搜索中获得了候选关系集和扩展的候选推理路径，就可以利用LLM基于问题的文字信息和候选关系从中选择出以尾部关系结尾的新的前N个推理路径P 。如下图所示，LLM在第一次迭代中从与实体 Canberra 相关的所有关系中选择前三个关系{capital of, country, territory }。由于 Canberra 是唯一的主题实体，排名前三的候选推理路径更新为 {(Canberra,capital of),(Canberra,country),(Canberra, territory)}。

Entity Exploration

实体探索与关系探索类似，也是一个由LLM从到执行的束搜索过程，包括两个步骤：搜索和剪枝。

第一步搜索：一旦从关系探索中获得了新的前 N个推理路径 P和一组新的尾部关系，对于每个关系路径 ∈ P，就可以通过查询？或？来探索候选实体集，于是便可以把聚合成，并使用尾实体扩展top-N个推理路径P到。在上述图中，可以表示为{Australia, Australia, Australian Capital Territory}。

第二步剪枝：由于每个候选集的实体都用自然语言来表示，便可以利用LLM从中选出新的top-N个推理路径P，这些路径以尾实体结束,如上图所示，Australia 和 Australian Capital Territory的得分为1，因为，capital of,country and territory分别只与一个尾部实体相连，并且当前推理路径 p 更新为 {(Canberra, capital of, Australia), (Canberra, country, Australia),(Canberra, territory, Australian Capital Territory)}。

Reasoning

在通过探索过程获得当前推理路径P之后，会提示LLM评估当前推理路径是否足够生成答案。如果评估结果是肯定的，会提示LLM使用推理路径和查询作为输入来生成答案。相反，如果评估结果是否定时，会进行重复探索和推理步骤，直到评估结果为正或达到最大搜索深度。如果算法尚未结束，这表明即使在达到时，ToG仍然无法探索出解决问题的推理路径。在这种情况下，ToG完全基于LLM的固有知识来生成答案。ToG的整个推理过程包含D个探索阶段和D个评估步骤以及一个生成步骤，最多需要2ND + D + 1次调用LLM。

RELATION-BASED THINK-ON-GRAPH

以前的KBQA方法，特别是基于语义解析的，主要依赖于问题中的关系信息来生成正式查询。受到这一点的启发，本文提出了基于关系的ToG，它探索从主题实体开始的前N个关系链，而不是基于三元组的推理路径。ToG-R在每次迭代中顺序执行关系搜索、关系剪枝和实体搜索，这与ToG相同。然后ToG-R基于通过实体搜索获得的所有候选推理路径执行推理步骤。如果LLM确定检索到的候选推理路径不包含足够信息让LLM回答问题，那么便从候选实体中随机抽取N个实体并继续下一次迭代。

假设每个实体集中的实体可能属于同一个实体类别并具有相似的邻近关系，修剪实体集的结果可能对后续的关系探索影响很小。因此，本文使用随机束搜索而不是ToG中的LLM约束束搜索来进行实体剪枝，称为随机剪枝。算法1和2显示了ToG和ToG-R的实现细节。ToG-R最多需要ND + D + 1次调用LLM。

与ToG相比，ToG-R提供了两个关键优势：1) 它消除了使用LLM修剪实体的过程，从而降低了总体成本和推理时间。2) ToG-R主要强调关系的字面信息，减少了中间实体的信息缺失或对LLM不熟悉时推理出错的风险。

Experiments

EXPERIMENTAL DESIGN

DATASETS AND EVALUATION METRICS

为了测试 ToG 在多跳知识密集型推理任务上的能力，本文在五个 KBQA 数据集（4 个多跳和 1 个单跳）上评估 ToG分别为CWQ 、WebQSP 、GrailQA、QALD10-en 、Simple Questions 。此外，为了在更通用的任务上检查 ToG，本文还准备了一个开放域 QA 数据集：WebQuestions ；两个槽填充数据集：T-REx 和 Zero-Shot RE；和一个事实检查数据集：Creak 。对于所有数据集，精确匹配准确度 (Hits@1) 被用作此项工作的评估指标。

METHODS SELECTED FOR COMPARISON

本文与标准的提示（IO提示）、链式思考提示（CoT提示）以及带有6个上下文示例和“逐步”推理链的自我一致性进行了比较。

此外，对于每个数据集，本文选择了之前的最先进（SOTA）工作进行比较。但注意到，专门在评估数据集上训练的微调方法通常在本质上比没有训练的基于提示的方法有优势，但牺牲了在其他数据上的灵活性和泛化能力。因此，为了公平起见，作者分别与所有基于提示的方法中的先前SOTA和所有方法中的先前SOTA进行比较。

EXPERIMENT DETAILS

考虑到ToG的即插即用便利性，本文在实验中尝试了三种大型语言模型：ChatGPT、GPT-4和Llama-2。本文使用OpenAI API来调用ChatGPT（GPT-3.5-turbo）和GPT-4。Llama2-70B-Chat在没有量化的8个A100-40G上运行，其中温度参数在探索过程中设置为0.4（增加多样性），在推理过程中设置为0（保证可重复性）。生成的最大令牌长度设置为256。在所有实验中，我们将束搜索的宽度N和最大深度都设置为3。Fr eebase被用作CWQ、WebQSP、GrailQA、Simple Questions和Webquestions的知识图谱，而Wikidata被用作QALD10-en、T-REx、Zero-Shot RE和Creak的KG。本文在所有数据集的ToG推理提示中使用了5个示例。

Main Results

COMPARISON TO OTHER METHODS

本文首先将其与那些也利用外部知识的其他方法进行比较。正如下图所示，尽管ToG是一种无需训练的基于提示的方法，在与那些使用评估数据进行训练的微调方法相比存在天然的劣势，但使用GPT-4的ToG在9个数据集中的6个（包括WebQSP、GrailQA、QALD10-en、WebQuestions、Zero-Shot RE和Creak）上仍然实现了新的最先进（SOTA）性能。即使在没有达到SOTA的一些数据集上，例如CWQ，CoT的性能也已经非常接近SOTA。如果与所有基于提示的方法相比，无论是使用GPT-4的ToG还是其性能较弱的ChatGPT版本，都能在所有数据集上获胜。特别是在开放域问答数据集WebQuestions上1.6%的性能提升展示了ToG在开放域问答任务上的泛化能力。同时，ToG在单跳知识库问答（KBQA）数据集上的表现不如在其他数据集上的表现。这些结果表明，ToG通常在多跳数据集上更有效，这也支持了本文的观点，即ToG增强了LLM的深层推理能力。

从上图可以看出，与那些没有利用外部知识的方法相比，ToG的优势更为显著。例如，在GrailQA和Zero-Shot RE上的性能分别提高了51.8%和42.9%。结果表明，在推理中不能忽视外部KG的好处。

ToG在大多数数据集上优于ToG-R，因为ToG使用的基于三元组的推理路径提供了额外的中间实体信息，这有助于提高推理的准确性。

PERFORMANCES WITH DIFFERENT BACKBONE MODELS

鉴于ToG的即插即用灵活性，本文评估了不同骨干模型对其在两个数据集CWQ和WebQSP上性能的影响。如下表所示，CoT的性能随着骨干模型的大小提高而提高（GPT-4 > ChatGPT > Llama-2）。此外，骨干模型越大，CoT和ToG之间的性能差距就越大（在CWQ上从Llama-2的18.5%增加到GPT-4的23.5%，在WebQSP上从Llama-2的11.5%增加到GPT-4的15.3%），这表明使用更强大的LLM可以挖掘出更多KG的潜力。

此外，即使使用最小的模型Llama-2，ToG的性能也超过了使用GPT-4的CoT。这意味着对于LLM的部署和应用提供了一条更经济的技术路线，即ToG配合便宜的小型LLM可能是替代昂贵的大型LLM的候选方案，特别是在外部KG可以覆盖的垂直场景中。

Ablation Study

Do search depth and width matter for ToG?

为了探索搜索深度和束宽度N对ToG性能的影响，作者在深度从1到4、宽度从1到4的设置下进行了实验。如下图所示，ToG的性能随着搜索深度和宽度的增加而提高。这也意味着，随着探索深度和广度的增加，ToG的性能有可能得到提升。然而，考虑到计算成本（随着深度线性增加），将深度和宽度都设置为3作为默认的实验设置。

另一方面，当深度超过3时，性能增长会减缓。这主要是因为只有一小部分问题基于SPARQL中的关系数量具有大于3的推理深度。

Do different KGs affect ToG’s performance?

ToG的一个主要优势是其即插即用的能力。正如下表所示，与CoT相比， ToG在CWQ和WebQSP上使用不同的知识图谱源取得了显著的改进。另一方面，不同的知识图谱源可能对ToG的性能有不同的影响。

值得注意的是，Freebase在CWQ和WebQSP上带来的改进比Wikidata更显著，因为这两个数据集都是基于Freebase构建的。此外，在像Wikidata这样的大型知识图谱中，搜索和剪枝过程相对更具挑战性。

How do different prompt designs affect ToG?

本文进行了额外的实验来确定哪些类型的提示表示可以为本文的方法很好地工作。结果如下表中。“Triples"表示使用三元组格式作为提示来表示多个路径，例如”(堪培拉，首都，澳大利亚)，(澳大利亚，总理，安东尼·阿尔巴尼斯)"。"Sequences"指的是使用序列格式，如图2所示。“Sentences"涉及将三元组转换为自然语言句子。例如，”(堪培拉，首都，澳大利亚)"可以转换为"堪培拉的首都是澳大利亚。"结果显示，使用基于三元组的表示来表示推理路径能够产生最高程度的效率和优越的性能。

相反，当考虑ToG-R时，每个推理路径是一个从主题实体开始的关系链，使其与基于三元组的提示表示不兼容。因此，将ToG-R转换为自然语言形式会导致提示过长，从而导致性能显著下降。

Comparing the affects from different pruning tools

比较不同剪枝工具的影响。除了LLM，可以测量文本相似度的轻量级模型，如BM25和SentenceBERT，也可以被用作探索阶段的剪枝工具，可以根据它们与问题的字面相似性来选择前N个实体和关系。

本文研究了不同剪枝工具对ToG性能的影响，如下表所示。用BM25或SentenceBERT替换LLM会导致我们方法的性能显著下降。具体来说，CWQ上的结果平均下降了8.4%，WebQSP上的结果平均下降了15.1%。结果表明，LLM作为剪枝工具在有效性方面表现最佳。另一方面，使用BM25或SentenceBERT后，只需要D+1次调用LLM，而不是像本文方法需要2ND+D+1次，这提高了ToG的效率。

KNOWLEDGE TRACEABILITY AND CORRECTABILITY IN TOG

知识图谱的质量对于ToG进行正确推理非常重要。ToG的一个有趣特性是，在大型语言模型推理过程中具有知识可追溯性和知识可纠正性，它提供了一种使用ToG本身提高KG质量并降低KG构建和修正成本的方法。

如上图所示，ToG的明确推理路径可以显示给用户。如果人类用户或专家或其他LLM发现ToG答案中存在潜在错误，ToG有能力回溯并检查推理路径，找出错误的可疑三元组，并进行修正。

以上图的案例为例，给定输入问题“Phillie Phanatic的球队的春训场地是什么？”，ToG在第一轮输出了错误答案“Bright House Field”。然后ToG回溯所有推理路径，定位错误可能来自第二条推理路径（Phillie Phanatic Team→Philadelphia Phillies Arena Stadium→Bright House Field），并分析错误来自于过时的三元组（Philadelphia Phillies, Arena Stadium, Bright House Field）中“Bright House Field”的旧名称“Spectrum Field”。根据ToG的提示，用户可以要求LLM纠正这个错误，并用正确的信息回答同一个问题。这个例子揭示了ToG不仅通过KG增强了LLM，而且还通过LLM提高了KG的质量，这被称为知识注入。