GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

题目

GraphEval:一个基于知识图的LLM幻觉评估框架
在这里插入图片描述

论文地址:https://arxiv.org/abs/2407.10793

摘要

    评估大型语言模型(LLM)响应和检测不一致性(也称为幻觉)的方法对于LLM应用变得越来越重要。当前的度量标准在提供可解释的决策、系统地检查响应中的所有信息片段的能力方面存在不足,并且通常计算成本太高而无法在实践中使用。我们提出GraphEval:一个基于知识图(KG)结构表示信息的幻觉评估框架。我们的方法识别了KG中易于产生幻觉的特定三联体,因此比以前的方法提供了对反应中幻觉发生位置的更多了解。此外,与使用原始NLI模型相比,将我们的方法与最先进的自然语言推理(NLI)模型结合使用,可以提高各种幻觉基准的平衡精度。最后,我们通过利用KG的结构探索了GraphEval用于幻觉矫正的用途,我们将这种方法命名为GraphCorrect,并证明大多数幻觉确实可以被矫正。

大型语言模型;知识图;幻觉检测;幻觉校正

引言

    随着LLM的尺寸和功率在最近几年急剧增加,潜在应用的数量也在增加。可以说,在实践中实现这些模型的最大障碍之一是他们产生幻觉的倾向——返回看似合理,但不真实的反应。在这里,我们关注于检测幻觉的问题,这个问题与LLM应该用作其知识来源的所提供的环境有关;检测偏离LLM原始训练数据的幻觉超出了这项工作的范围。在反应的确定性至关重要的应用中,例如医学诊断,由给定环境产生的幻觉的存在尤其有限。因此,最重要的是开发成功的方法来检测这些幻觉,并且当有兴趣解决或纠正它们时,提供关于反应的哪一方面可能是幻觉的清晰性。

    这一问题的重要性反映在发表的大量关于这一主题的研究报告中——关于这一领域的最新调查,见纪等人[12]。对自然语言进行评价是一项具有挑战性的任务,研究者们对此一直很感兴趣在幻觉成为首要问题之前。方法已经从传统的基于N-gram的度量(如BLEU [26]和ROUGE [17])发展到更加复杂的基于LLM的评估度量(具有用户定义的评估标准),如G-Eval [18]。最近,提出了利用提取增强生成(RAG) [16]和知识图推理(KGs) [19,34]来减轻生成输出中幻觉流行的技术。前者建议将相关的上下文数据串联到提示中,以使LLM响应接地,而后者通过在KG结构中提供接地信息来实施更健壮的推理过程[1]。尽管这些方法很成功,但它们并没有完全避开评估LLM输出的需要。

    受当前利用KG提供接地LLM响应的研究的启发,我们提出了GraphEval -一种基于KG结构中信息表示的幻觉检测框架。据我们所知,我们是第一个将KGs应用于基于LLM的幻觉评估框架的公司,通过这样做,我们可以比以前的任何指标更深入地了解幻觉出现在输出中的哪个位置。此外,我们还展示了如何将我们的方法与当前最先进的幻觉检测方法结合使用,以提高它们在各种基准上的分类精度。最后,我们考虑了幻觉校正的问题,并介绍了GraphCorrect,展示了GraphEval如何有效地扩展以矫正LLM输出中出现的大部分幻觉。

问题陈述

    在这项工作中,我们集中于封闭域幻觉检测问题:我们有一个来自LLM的文本输出的情况,它是使用包含在提示中的一些基础上下文生成的。在这种情况下,LLM的目标是使用所提供的上下文作为其唯一的知识来源。关于世界上所有事实知识的开放领域问题,在这里不探讨,但在第8节中简要讨论。

    我们认为幻觉检测是一个二元分类问题,0对应于给定上下文的LLM输出实际上是一致的,1对应于包含至少一个不一致的输出。我们可以使用基准数据集来评估幻觉评估方法,该基准数据集包含基本事实标签(通常是人类注释的),以确定给定的上下文输出对是否包含事实上的不一致。在整篇论文中,我们交替使用术语“事实的”、“一致的”、“有根据的”和“忠实的”,来表示在上下文中不包含幻觉。最后,我们探讨了幻觉校正的问题,其中我们不使用任何直接标记的数据集。

    相反,我们利用幻觉检测框架首先识别要纠正的幻觉,然后重新利用它们来评估纠正后的输出。值得注意的是,我们对幻觉矫正的探索只是作为我们评估框架的延伸,并不是这项研究的主要焦点。

相关工作

    历史上,基于N-gram的度量,如BLEU [26]和ROUGE [17]一直是最广泛使用的自然语言评估度量。然而,这些指标在事实不一致检测任务中表现不佳[21,11]。最近几年,基于嵌入的度量,如BERTScore [35]比基于N-gram的度量更受青睐。这些

### 基于LLM知识图谱构建框架 知识图谱是一种用于表示实体及其关系的数据结构,能够有效支持语义搜索、推荐系统以及自然语言处理中的多种应用。基于大型语言模型LLM)的知识图谱构建通常涉及三个核心步骤:提取(Extract)、定义(Define)和规范化(Canonicalize)。以下是这些步骤的具体描述: #### 提取(Extract) 在这一阶段,主要目标是从非结构化数据源中识别并抽取潜在的实体和关系。这可以通过以下方法实现: - **命名实体识别 (NER)**:利用预训练的语言模型来检测文本中的实体提及[^1]。 - **关系抽取**:通过分析句子语法结构或依赖树,确定实体之间的关联性[^2]。 ```python import spacy nlp = spacy.load("en_core_web_trf") def extract_entities(text): doc = nlp(text) entities = [(ent.text, ent.label_) for ent in doc.ents] return entities ``` 上述代码展示了如何使用SpaCy库加载一个强大的NLP管道来进行基本的实体提取操作[^3]。 #### 定义(Define) 此过程旨在为所提取到的信息赋予更精确的意义。具体而言,它包括以下几个方面的工作: - **类型分配**:将每个发现的对象映射至已知类别体系下的某个特定标签下[^4]。 - **属性填充**:收集关于个体实例的各种特征描述,并将其作为节点附加信息存储起来[^5]。 对于复杂场景可能还需要借助外部本体资源或者领域专家指导完成更加细致入微地分类界定工作。 #### 规范化(Canonicalize) 最后一步则是确保整个网络内部一致性良好无误。这意味着要解决同名异物问题以及其他形式上的歧义情况。常用技术手段有: - **聚类算法**:把相似但表述不同的条目合并成单一代表项[^6]。 - **消解策略**:采用全局唯一标识符UID等方式消除重复记录带来的干扰影响[^7]。 综上所述,在现代AI技术支持之下,我们可以高效自动化地建立起高质量的知识图表作品出来供后续深入挖掘研究之用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值