【大模型➕知识图谱】GraphEval:基于知识图谱的LLM虚构内容检测框架
GraphEval:基于知识图谱的LLM虚构内容检测框架
原文作者:Hannah Sansford、Nicholas Richardson、Hermina Petric Maretic、Juba Nait Saada
原文链接:GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework
译者:[知识靠谱]
近年来,大型语言模型(LLM)的规模持续扩大,能力也不断增强,在众多领域的应用愈发广泛。然而,LLM存在一个突出问题,即容易产生“虚构内容”,也就是生成看似合理但实际与事实不符的信息。在像医疗诊断这类对准确性要求极高的应用场景中,这种虚构内容的存在极大地限制了LLM的应用。所以,开发有效的虚构内容检测及纠正方法显得至关重要。
1. 研究背景
检测LLM生成内容中的虚构信息是一项复杂的任务,现有的评估方法在可解释性、全面性以及计算成本方面都存在不足。例如,传统的基于N - gram的评估指标,像BLEU和ROUGE,在检测虚构内容时效果欠佳;而基于嵌入的度量方法,比如BERTScore,尽管相比传统方法有所进步,但在精确检测虚构内容上仍有欠缺。近期,有研究尝试利用LLM自身特性或自然语言推理(NLI)模型来检测虚构内容,不过这些方法要么计算成本过高,在实际应用中难以推广,要么缺乏清晰的解释性,无法让使用者明确问题所在。
在这样的背景下,本文提出了GraphEval,这是一种基于知识图谱(KG)的虚构内容检测框架。GraphEval的独特之处在于,它将LLM生成的内容转化为知识图谱结构,然后借助NLI模型来检测图谱中的每个三元组与给定上下文是否一致,从而实现更精准的虚构内容检测,并能给出具有解释性的结果。
2. GraphEval框架
GraphEval的核心思路是把LLM的输出转化为知识图谱结构,进而逐个检查图谱中的三元组与上下文的一致性。具体包含以下几个关键步骤:
2.1 知识图谱构建
首先要从LLM的输出文本中提取实体和它们之间的关系,进而构建知识图谱。在这个过程中,充分利用LLM的实体检测、共指消解和关系提取能力,将原本非结构化的文本信息转化为结构化的三元组集合。这些三元组就像是知识图谱的“基石”,清晰地展示了文本中各个元素之间的关联。
2.2 虚构内容检测
构建好知识图谱后,将图谱中的每个三元组输入到NLI模型中,并与提供的上下文进行对比分析。一旦发现任何一个三元组与上下文不一致,就判定整个LLM输出内容包含虚构信息。这种基于三元组的细致检测方式,能够更精准地定位虚构内容可能出现的位置。
2.3 虚构内容纠正
GraphEval不仅具备检测虚构内容的能力,还开发了GraphCorrect方法来实现对虚构内容的纠正。具体操作是,针对检测出的存在虚构信息的三元组,GraphCorrect会重新生成正确的三元组,然后将其替换回原始的LLM输出内容中,从而达到纠正虚构内容的目的,使输出结果更加符合事实。
3. 实验结果
为了验证GraphEval框架的有效性,研究人员在多个虚构内容检测的基准数据集上进行了实验,这些数据集包括SummEval、QAGS - C和QAGS - X。实验结果显示,当GraphEval与NLI模型结合使用时,虚构内容检测的准确率得到了显著提升,平均提高了6.2个百分点(标准误为1.3)。同时,GraphCorrect在纠正虚构内容方面表现出色,能够有效修正大部分检测到的虚构内容,并且在纠正过程中,很好地保持了与原始输出内容的高度相似性,最大程度减少了对原始内容中正确部分的影响。
4. 讨论与展望
GraphEval具有显著的优势,主要体现在其良好的可解释性和高度的灵活性。通过将LLM输出转化为知识图谱,GraphEval能够精确指出虚构内容在输出中的具体位置,为使用者提供直观清晰的解释,让使用者清楚了解问题所在。此外,GraphEval的计算成本相对较低,它只需要对LLM输出进行一次处理,不像其他一些方法需要多次调用LLM,这使得它在实际应用中更具可行性。
展望未来,随着知识图谱构建技术的不断进步,GraphEval的性能有望进一步提升。例如,在知识图谱构建阶段,可以更精准地提取信息,减少信息丢失,从而提高虚构内容检测的准确性。而且,GraphEval还有望拓展到开放域虚构内容检测领域,通过引入外部丰富的知识源来验证LLM输出的真实性,进一步扩大其应用范围。
5. 结论
GraphEval是一个简洁且高效的LLM虚构内容检测框架,它借助知识图谱将LLM输出结构化,再利用NLI模型进行虚构内容检测。实验充分证明,GraphEval能够显著提高虚构内容检测的准确率,并且通过GraphCorrect可以有效纠正LLM输出中的虚构内容。随着知识图谱技术的持续发展,GraphEval在LLM虚构内容检测领域将发挥更大的作用,为推动LLM的可靠应用提供有力支持。
关键词
- 大型语言模型(LLM)
- 知识图谱(KG)
- 虚构内容检测
- 虚构内容纠正
参考文献
- Sansford, H., Richardson, N., Petric Maretic, H., & Nait Saada, J. (2024). GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework. arXiv:2407.10793 [cs.CL]