题目
GraphEval:一个基于知识图的LLM幻觉评估框架
论文地址:https://arxiv.org/abs/2407.10793
摘要
评估大型语言模型(LLM)响应和检测不一致性(也称为幻觉)的方法对于LLM应用变得越来越重要。当前的度量标准在提供可解释的决策、系统地检查响应中的所有信息片段的能力方面存在不足,并且通常计算成本太高而无法在实践中使用。我们提出GraphEval:一个基于知识图(KG)结构表示信息的幻觉评估框架。我们的方法识别了KG中易于产生幻觉的特定三联体,因此比以前的方法提供了对反应中幻觉发生位置的更多了解。此外,与使用原始NLI模型相比,将我们的方法与最先进的自然语言推理(NLI)模型结合使用,可以提高各种幻觉基准的平衡精度。最后,我们通过利用KG的结构探索了GraphEval用于幻觉矫正的用途,我们将这种方法命名为GraphCorrect,并证明大多数幻觉确实可以被矫正。
大型语言模型;知识图;幻觉检测;幻觉校正
引言
随着LLM的尺寸和功率在最近几年急剧增加,潜在应用的数量也在增加。可以说,在实践中实现这些模型的最大障碍之一是他们产生幻觉的倾向——返回看似合理,但不真实的反应。在这里,我们关注于检测幻觉的问题,这个问题与LLM应该用作其知识来源的所提供的环境有关;检测偏离LLM原始训练数据的幻觉超出了这项工作的范围。在反应的确定性至关重要的应用中,例如医学诊断,由给定环境产生的幻觉的存在尤其有限。因此,最重要的是开发成功的方法来检测这些幻觉,并且当有兴趣解决或纠正它们时,提供关于反应的哪一方面可能是幻觉的清晰性。
这一问题的重要性反映在发表的大量关于这一主题的研究报告中——关于这一领域的最新调查,见纪等人[12]。对自然语言进行评价是一项具有挑战性的任务,研究者们对此一直很感兴趣在幻觉成为首要问题之前。方法已经从传统的基于N-gram的度量(如BLEU [26]和ROUGE [17])发展到更加复杂的基于LLM的评估度量(具有用户定义的评估标准),如G-Eval [18]。最近,提出了利用提取增强生成(RAG) [16]和知识图推理(KGs) [19,34]来减轻生成输出中幻觉流行的技术。前者建议将相关的上下文数据串联到提示中,以使LLM响应接地,而后者通过在KG结构中提供接地信息来实施更健壮的推理过程[1]。尽管这些方法很成功,但它们并没有完全避开评估LLM输出的需要。
受当前利用KG提供接地LLM响应的研究的启发,我们提出了GraphEval -一种基于KG结构中信息表示的幻觉检测框架。据我们所知,我们是第一个将KGs应用于基于LLM的幻觉评估框架的公司,通过这样做,我们可以比以前的任何指标更深入地了解幻觉出现在输出中的哪个位置。此外,我们还展示了如何将我们的方法与当前最先进的幻觉检测方法结合使用,以提高它们在各种基准上的分类精度。最后,我们考虑了幻觉校正的问题,并介绍了GraphCorrect,展示了GraphEval如何有效地扩展以矫正LLM输出中出现的大部分幻觉。
问题陈述
在这项工作中,我们集中于封闭域幻觉检测问题:我们有一个来自LLM的文本输出的情况,它是使用包含在提示中的一些基础上下文生成的。在这种情况下,LLM的目标是使用所提供的上下文作为其唯一的知识来源。关于世界上所有事实知识的开放领域问题,在这里不探讨,但在第8节中简要讨论。
我们认为幻觉检测是一个二元分类问题,0对应于给定上下文的LLM输出实际上是一致的,1对应于包含至少一个不一致的输出。我们可以使用基准数据集来评估幻觉评估方法,该基准数据集包含基本事实标签(通常是人类注释的),以确定给定的上下文输出对是否包含事实上的不一致。在整篇论文中,我们交替使用术语“事实的”、“一致的”、“有根据的”和“忠实的”,来表示在上下文中不包含幻觉。最后,我们探讨了幻觉校正的问题,其中我们不使用任何直接标记的数据集。
相反,我们利用幻觉检测框架首先识别要纠正的幻觉,然后重新利用它们来评估纠正后的输出。值得注意的是,我们对幻觉矫正的探索只是作为我们评估框架的延伸,并不是这项研究的主要焦点。
相关工作
历史上,基于N-gram的度量,如BLEU [26]和ROUGE [17]一直是最广泛使用的自然语言评估度量。然而,这些指标在事实不一致检测任务中表现不佳[21,11]。最近几年,基于嵌入的度量,如BERTScore [35]比基于N-gram的度量更受青睐。这些