论文:Improving Entity Disambiguation by Reasoning over a Knowledge Base翻译笔记(通过在知识库中进行推理来改进实体消歧)


在这里插入图片描述

论文题目:通过在知识库中进行推理来改进实体消歧

论文链接:https://arxiv.org/abs/2207.04106
arXiv:2207.04106v1 [cs.CL] 8 Jul 2022

摘要

最近的工作在实体消歧(ED)方面通常忽略了结构化知识库(KB)的事实,而是依赖于KB信息的一个有限子集,例如实体描述或类型。这限制了可以在其中进行实体消歧的上下文范围。为了允许使用所有KB事实以及描述和类型,我们引入了一个ED模型,该模型通过以完全可微的方式对符号知识库进行推理来链接实体。我们的模型在六个成熟的ED数据集上超越了现有的最佳基线模型,平均F1得分提高了1.3。通过允许访问所有KB信息,我们的模型减少了对基于流行度的实体先验的依赖,并在具有挑战性的ShadowLink数据集(强调不常见和模糊的实体)上改善了性能,F1得分提高了12.7。

1 介绍

实体消歧(Entity Disambiguation,简称ED)是将文本中提到的实体与知识库(Knowledge Base,简称KB)中的相应实体进行链接的任务。最近的ED模型通常使用KB信息的小子集(如实体类型或描述)来执行链接。这些模型在标准ED数据集上的性能表现强劲,这些数据集主要由在训练数据中频繁出现的实体组成。

然而,在不太常见的实体上,ED性能会下降,以至于许多最近的模型在关注具有挑战性或罕见实体的数据集上被过时的基于特征工程的ED系统超越(Provatova等人,2021)。这表明模型过于依赖先验概率,这些概率要么是隐式学习的,要么作为特征提供,而不是有效地利用提及上下文。 其中一个原因是,模型使用的KB信息子集不足以在所有上下文中区分相似实体,这意味着模型不得不退而求其次,预测最受欢迎的实体。对于性能下降的另一种解释是,不太常见的实体容易缺失或不一致的知识库信息(例如,它们可能没有描述),这对于依赖于单一信息来源的模型来说是有问题的。为了说明这一点,我们发现,在维基数据中25%最不受欢迎的实体中有21%既没有英文描述也没有任何实体类型,这使得那些仅依赖于这两种信息来源的模型无法对它们进行消歧(除了它们的标签)。超过一半的实体至少有一个知识图谱事实(例如[Cafe Gratitude]、[总部位置]、[旧金山]);因此,通过包含知识图谱事实,除了标签之外没有其他信息的最不受欢迎实体的百分比从21%降至8%。

鉴于此,我们引入了一个ED模型,该模型可以访问实体类型和描述以及所有KB事实。通过使用更多种类的信息,我们的模型对缺失的KB信息更具鲁棒性,并能够在更广泛的情境中解析实体,而无需依赖实体先验知识。图1展示了一个示例句子,其中实体描述和类型中的信息不足以消歧提到的人名——克林顿。需要精细的知识库信息,例如关于候选实体的出生地或教育背景的事实。
在这里插入图片描述

图1:一个需要精细的知识库信息来进行实体消歧的句子示例。

为了整合KB事实,我们的模型首先使用描述(Wu等人,2019)和预测的实体类型(Raiman和Raiman,2018)对候选实体进行重新排名。然后,我们利用文档上下文预测文档中每对提及之间的关系。例如,给定图1中的句子,模型可能会预测[出生地]关系存在于Clinton和Hope, Arkansas之间的提及。为此,我们引入了一个新颖的“粗细结合”的文档级关系提取(RE)模块,它相对于标准RE方法提高了准确性和减少了推理时间。给定关系预测,我们查询知识库(在这种情况下是Wikidata)中存在于提及Clinton的候选实体和提及Hope, Arkansas的候选实体之间的事实。在这种情况下,我们会找到维基数据事实[比尔·克林顿]、[出生地]、[希望],并相应地提高[比尔·克林顿]和[希望]实体的得分。我们通过将知识库存储在一个独热编码的稀疏张量中来实现这种机制,这使得整个架构可以端到端地进行差异化。

我们的模型在公认的ED数据集上超越了最先进的(SOTA)基线,平均提高了1.3的F1分数,并在具有挑战性的ShadowLink数据集上显著提高了12.7的F1分数。此外,该模型的预测是可解释的,即模型用于做出预测的事实是可以访问的。

我们的贡献总结如下:

  1. 我们实证表明,在实体检测中使用知识库事实可以提高性能,超越通常依赖于单一知识库信息的SOTA方法。
  2. 我们提出了一种可扩展的方法,将符号信息整合到神经网络ED模型中。据我们所知,这是首次将端到端可微分的符号知识库用于ED。
  3. 我们介绍了一种新颖的文档级关系提取(RE)架构,它使用粗到细的预测来获得具有竞争力的准确性和高效率。

2 相关工作

关于ED的近期研究主要关注基于特征的方法,这种方法通过优化神经网络,使得正确知识库实体的表示与提及表述最为相似,且每个提及都是独立解析的。KB实体的表示方式在不同工作中有所不同。早期的工作(Ganea和Hofmann,2017)直接从训练样本中学习实体嵌入,这种方法对于在训练过程中见过的实体表现良好,但无法解决未见过的实体。更近期的工作通过使用实体描述(如实体的子集信息)来提高常见数据集的性能,这些描述在训练期间是不可见的。例如,实体描述(Logeswaran等人,2019年;Wu等人,2020年)或实体类型(Raiman和Raiman,2018年;Onoe和Durrett,2020年)。

2.1 带有知识库上下文的勃起功能障碍(ED)问题

Mulang’等人(2020年)和Cetoli等人(2019年)通过将知识库(KB)事实转化为词汇形式并将其附加到上下文句子中,然后使用交叉编码模型来预测这些事实是否与句子一致的方法,将KB事实引入到情感分析模型中。我们的模型与这种方法不同,因为我们是在文档中共同解决实体,而不是独立地解决实体;这使得可以在实体预测之间捕获成对的依赖关系。另一个可能的限制是交叉编码方法的高计算成本,即对每个附加到文档上下文中的事实进行长序列长度的编码。通过从稀疏张量中获取KB事实,我们能够避免这个瓶颈,并将规模扩大到更多的事实(Cohen等人,2020)。

2.2 基于知识图谱嵌入的ED

图神经网络(GNN)已被用于表示KB事实以提供ED预测(Sevgili等人,2019;Ma等人,2021)。这些方法可以潜在地访问所有KB事实中的信息,但依赖于图形嵌入的质量,这可能难以表示许多基本语义(Jain等人,2021),特别是对于不受欢迎实体(Mohamed等人,2020)。

2.3 全局ED(实体解析)

在文献中有一系列的论文旨在优化整个文档中实体选择的全局一致性(Hoffart等人,2011;Cheng和Roth,2013;Moro等人,2014;Pershina等人,2015)。我们的模型与以前的方法不同,因为它根据文档文本预测提到之间的关系,并通过这些预测对一致性分数进行加权,而不是独立于文档上下文考虑一致性。我们还限制模型只在提到之间进行成对的一致性,以提高计算效率,而不是全局一致性。

2.4 多模块的实体识别

与我们工作最相似的是Orr等人(2021)的工作,他们在尾部实体上取得了很好的结果。他们引入了一个实体识别(ED)模型,该模型使用实体嵌入、关系嵌入、类型嵌入和一个知识图谱模块来连接实体。我们的模型与现有模型的一个关键区别在于使用KB事实进行消歧的方式。在他们的工作中,KB事实是独立于候选实体共现的文档上下文进行编码的,而我们的模型能够利用相关KB事实来考虑文档上下文。

3 拟议的方法

3.1 任务表述

给定一个包含提及的文档X,其中M = {m1, m2, …, m|M|},一个知识库ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值