论文阅读04:使用序列标注的方式解决实体和关系的联合抽取

公众号:数据挖掘与机器学习笔记

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

1.摘要

实体和关系的联合抽取是信息抽取中的一个重要任务。为了解决这个问题,我们首先提出了一种新的标签方案(tagging scheme),将联合抽取任务转换为打标签(tagging)问题。然后,基于该标签方案,我们研究了不同的端到端模型来抽取实体及实体关系,而不是分开识别实体和关系。我们在一个公开数据集上进行了实验,该数据集是通过远程监督方法产生的。实验表明基于该标签方案的方法比现在大多数pipelined和联合学习(joint learning)方法效果更好。除此之外,论文中提出的端到端模型实现了公开数据集中的最优结果。

2.引言

实体和关系的联合抽取是为了侦测实体提及并同时从非结构化文本中识别它们的语义关系,如图1所示。与开放信息抽取从给定的语句中抽取关系词不同,在实体和关系的联合抽取任务中,关系词来自于预先定义的关系集合,通常不会出现于给定语句中。联合抽取是知识抽取和知识库自动构建的一个重要问题。实体识别的结果可能影响关系分类的性能并且导致误差传递。它们需要复杂的特征工程,而且严重依赖其它的NLP工具,这些工具也可能导致误差传播。为了减少特征抽取方面的人工工作,最近,(Mi-wa and Bansal, 2016) 展示了用于端到端实体和关系抽取的基于神经网络的方法。虽然联合模型可以在单个模型中使用共享参数表示实体和关系,它们也会分开抽取实体和关系,从而产生冗余信息。

image-20201116221046236

传统处理该任务的流水线方法通常先提取出实体,然后识别实体的关系。这个分离的框架让这个任务变得容易处理,每个步骤也更加灵活。但她忽略了两个子任务之间的相关性,并且每个子任务是独立的模型。

不同于pipelined的方法,联合学习框架是使用单个模型同时抽取实体和关系。它可以有效整合实体和关系的信息,并且已经证明能够取得更好的效果。然而,目前的大多数联合方法都是基于特征的结构化系统。它们需要复杂的特征工程,而且严重依赖其它的NLP工具,这些工具也可能导致误差传播。为了减少特征抽取方面的人工工作,最近,(Mi-wa and Bansal, 2016) 展示了用于端到端实体和关系抽取的基于神经网络的方法。虽然联合模型可以在单个模型中使用共享参数表示实体和关系,它们也会分开抽取实体和关系,从而产生冗余信息。

这篇论文关注三元组的抽取,三元组由两个实体和它们的关系组成。因此,我们可以直接对三元组进行建模,而不是分别抽取实体和关系。基于这个动机,我们提出了一个标签方案和一个端到端的模型来解决该问题。我们设计了一种新的标签,包含实体和关系的信息。基于该标签方案,实体和关系的联合抽取可以被转换为打标签问题。就这样,我们可以很容易使用神经网络来建模这个任务,而不需要复杂的特征工程。

最近,基于LSTM的端到端的模型已被应用于各种标注任务:命名实体识别、Chunking等。LSTM拥有学习长期依赖的能力,这有利于序列建模任务。因此,基于我们的标签方案,我们调查了不同的基于LSTM的端到端的模型来联合抽取实体和关系。我们也通过添加偏置(biased)损失来修改解码方法,从而使得模型适合我们设计的特殊标签。

我们提出的方法是一个有监督学习算法。然后,实际上,人工标注一个有大量实体和关系的训练集代价太贵且容易出错。因此,我们在一个由远程监督方法生成的公共数据集上进行实验以验证我们的方法。实验表明我们的方法在该任务上是有效的。除此之外,我们的端到端模型在这个公开数据集上能够取得最好的结果,可以增强相关实体之间的联系。

这篇论文的主要贡献是:

  • (1)提出一个新的标签方案用于联合抽取实体和关系,可以轻易把抽取问题转换为标注任务。
  • (2)基于该标签方案,可以学习不同的端到端模型来解决这个问题。基于该标签的方法优于目前大多数pipelined和联合学习方法。
  • (3)而且,我们使用bias loss function开发了一个端到端模型以适应新的标签方案,该方法可以加强相关实体之间的联系。

3.方法

我们提出了一个新的标签方案和带有偏置目标函数(biased objective function)的端到端模型来联合抽取实体它们的关系。这一节:首先介绍怎么基于我们的打标签方法把抽取问题转为标注问题。然后阐述我们用于抽取结果的模型。

3.1 标签方案

image-20201122101745400

图2的例子展示了怎么打标签。每个词都有一个标签。标签"O"表示“Other“标签,表示与抽取结果不相关。除了”O“外,其它标签包含三个部分:实体中词位置,关系类型以及关系角色。使用BIES表示实体中词的位置信息。关系类型信息可以从一个预定义的关系集合中获取,关系角色信息使用数字"1"和”2“表示。抽取的结果使用三元组(Entity1,RelationType,Entity2)表示。"1"表示这个词属于实体1,”2“表示这个词属于实体2.因此,总的标签数量为N=2∗4∗∣R∣+1N=2*4*|R|+1N=24R+1,|R|是预定义的关系集大小。

图2中输入语句包含2个三元组:{United States, Country-President,Trump} and {Apple Inc, Company-Founder,Steven Paul Jobs},其中,“Country-President"和"Company-Founder"是预定义的关系类型;“United”,“States”,“
Trump”,“Apple”,“Inc”,“Steven”,“Paul”and“Jobs” 是要抽取的实体。它们都使用我们的特殊标签进行标注。比如,单词"United"是实体“United States”的第一个词,与“Country-President”相关,所以它的标签是"B-CP-1”.另一个实体“ Trump”被标注为 “S-CP-2”。除此之外,那些与最终结果不相关的单词标注为"O"。

3.2 从标签序列到抽取的结果

根据图2中的标签序列,我们知道“ Trump” 和 “United States”共享同样的关系类型"Country-President",“Apple Inc” 和“Steven Paul Jobs” 共享同样的关系类型“Company-Founder”。我们把具有相同关系类型的实体放到一个三元组以获取最终结果。因此,“ Trump” 和 “United States”被放到同一个三元组,他们的关系类型是“Country-President”,在这个关系中,“ Trump”是"2",United States”是"1",所以最终的结果是 {United States, Country-President, Trump}。同样,另一个结果是{AppleInc, Company-Founder, Steven Paul Jobs}.

此外,如果一个语句包含两个或者更多拥有同样关系类型的三元组,我们使用最近邻原则把每两个实体组合进三元组。比如,图2中关系类型“Country-President”是“Company-Founder”,那么图中四个实体将有用相同的关系类型。“U-
nited States”与实体“ Trump”更近,“Apple Inc” 与“Jobs”更近,所以最终的结果是{United States, Company-Founder,Trump} 和{Apple Inc, Company-Founder,
Steven Paul Jobs}.

在这篇论文中,近考虑一个实体只属于一个三元组的情况,不考虑关系重叠的情况。

3.3 端到端的模型

image-20201122111512041

最近几年,基于神经网络的端到端的模型被广泛运用到序列标注任务上。这篇论文调查了一个端到端的模型来进行序列标注,如图2所示。它包含用于编码输入序列的BiLSTM层、使用biased loss的用于解码的LSTM层。biased loss可以加强实体标签的关系。

  • BiLSTM编码层

    在序列标注问题上,BiLSTM编码层已经被证明能够有效捕获每个词的语义信息。BilSTM包括前向LSTM层、后向LSTM层和合并层。Embedding层把one hot表示转换成Embedding向量。因此,一个单词序列可以被表示为W={ w1,…,wt,wt+1,wn}W=\{w_1,\dots,w_t,w_{t+1},w_n\}W={ w1,,wt,wt+1,wn},其中wt∈Rdw_t \in R^dwt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值