本文在AAAI19发布,论文地址:https://wvvw.aaai.org/ojs/index.php/AAAI/article/view/4591

摘要
联合实体和关系提取是使用单个模型同时检测出实体和关系。目前主流的联合实体和关系抽取方法,主要是采用管道模型,先识别出实体,再找出实体间的关系。这样的框架虽然容易推导,但易导致错误传播,并且忽略了实体和关系间的内在联系。本文提出了一种新颖的统一联合提取模型,该模型根据查询词位置p标记实体和关系标签,即设定一个位置p,然后在p处检测实体,并在与前者(p处实体)有关系的其他位置识别实体。为了实现这种模式,文中还提出了一种标记方案,为n个单词的句子生成n个标记序列。然后引入位置注意机制为每个查询位置生成不同的句子表示,以对这n个标签序列进行建模。文中提出的模型可以同时提取实体及其类型以及所有重叠关系。实验结果表明,在提取重叠关系以及检测远程关系方面,文中提出的框架性能非常好。
相关工作
文中提出了新的统一框架进行联合抽取。给定一个句子和一个查询位置p,我们的模型将回答两个伪问题:“p处的实体及其类型是什么?”和“ p处的实体与哪个实体有关系?”通过回答这两个问题我们将联合抽取问题转化为序列标注问题,对于一个有n个单词的句子,我们根据n个查询位置(每个单词是一个查询位)注释了n个不同的标签序列。为了在单个统一模型中对这n个标记序列建模,我们将一种新颖的位置注意力机制引入序列标记模型以生成n个不同的位置感知语句表示。另外,所提出的注意力机制可以在单词(实体)之间建立直接连接,这有助于提取远程关系(两个实体之间的距离很长)。
本文的主要工作为:
- 设计了一种可以同时表示实体类型和重叠关系的标记方案。
- 提出了一种位置注意机制,根据查询位置p生成不同的位置感知语句表示,可用于解码不同的标签序列并提取重叠关系。
- 采用实验证明了提出的方法的有效性。
主要方法及创新点
本篇论文主要有两个创新点,一个是提出了一套新颖的标记方案,标记n个(n为句子长度)和句子长度相同的标签序列,使得模型在提取重叠关系方面相比其他模型有很大的改善。另一个是使用了位置注意力机制,位置注意力机制的使用使模型提取远程关系的效果非常出色。
1.使用标记序列提取重叠关系
重叠关系的定义
上图是论文中给出的一个重叠关系的例子。该句子中,多个关系共享该句子中同一个实体,这几个关系就是重叠关系。例如,表中的前三个关系因为它们共享相同的实体’‘特朗普’'而重叠。类似地,后两个关系也重叠,共享实体“纽约市”。这种重叠关系在关系提取数据集中非常常见,而传统的模型一般只能抽取出重叠关系中的一个,而不能把所有的重叠关系全部抽取出来。
标记方案
为了解决重叠关系的提取问题,文中提出了标记序列的方法。标记序列的标记过程如下:
对于一个有n个单词的句子,为每一个单词创建一个长度为n的序列并标记,共标记n个长度为n的序列。根据不同的查询位置p(也就是目标单词在句子中的位置)对n个不同的标记序列进行注释。在每个标签序列中,如果查询位置p是在实体的开始处,则在查询位置p标记该实体的类型,而在p处与该实体有关系的其他实体则用关系类型标记,其余位置则分配“O”标签(外部标签),表明它们与所关注的实体没有关系。因此,可以基于标签序列提取由三元组(Entity1,RelationType,Entity2)表示的关系。显然,查询位置p处的实体可以多次使用组成重叠的关系。
上图是标记方案的一个示例,其中n表示句子长度,p∈[1,n]是查询词的位置。对于查询词p,建立一个长度为n的标签序列来表示与p处的实体相对应的所有可能的重叠关系。如果p在实体的开始处,则在p处标记该实体类型;对于其他的位置,如果它们与p处的实体具有关系,则在其余的单词上标记关系类型。这样,可以使用此标记方案对所有实体和重叠关系进行注释。在此示例中,“ B-LOC”中的“ LOC”是实体类型LOCATION的缩写,“ S-PER”中的“ PER”是PERSON的缩写,“ B-PO”中的“ PO”是关系类型的主席的缩写 ,“ B-BI”中的“ BI”是“出生于”的缩写,而“ B-LI”中的“ LI”是“位于”的缩写。在上图所示例子中,当p=5时,目标单词为Trump,建立一个标签序列,由于p=5的位置有一个实体Trump,所以在p=5的位置标记S-PER,S是signal单字的意思,PER是这个实体的类型。对于实体Trump,它和位置为14,15,16处的New York City构成了一个关系三元组{Trump, Born_in, New York City},关系为Born_in,所以在实体New York City上,分别标记了B-BI、I-BI、E-BI。由这个例子可以看出标记方案,即在关系三元组的第一个实体上标记实体的类型,第二个实体上标记关系类型。
2.在关系提取中使用位置注意力机制
在计算位置注意力向量之前,需要做的准备工作有,将字向量和词向量拼接后[Ww;Wc],作为输入,输入进一个Bi-LSTM编码器,得到隐藏层状态,使用H = {ht},t∈[1,n]表示。之后进行位置注意力的计算。
上图展示了论文中提出的位置注意力机制。其主要思想是为句子中的每一个单词求出一个注意力向量ct,ct = att(H, hp, ht),t∈[1,n]。其中H是整个句子的隐藏状态,hp是目标词状态,ht是对应的单词的隐藏状态。得到ct的方法如下:
上述公式中WH,Wp,Wh,v是要学习的参数,hj,hp,ht分别是位置j,p和t处的隐藏状态,stj是通过将hp和ht与每个句子状态hj进行比较而得出的分数, atj是stj归一化产生的注意力权重。j用来遍历整个句子中的所有单词,j∈[1,n]。对句子中的一个单词wt,它的注意力权重在计算时会用到整个句子中所有单词的隐藏状态(用hj表示)、位置p处的单词的隐藏状态hp,和wt自己的隐藏状态ht。
通过上式中的方法求出了位置注意力向量ct,将其和Bi-LSTM编码器得到隐藏层状态ht拼接,得到向量ut,然后将ut作为输入,输入进一个CRF解码器,计算后得到实体和关系三元组。
实验
实验使用了纽约时报和Wiki-KBP的数据集来评估该方法。NYT和Wiki-KBP的统计数据如下表所示。
作者还通过和lstm-lstm-bias模型做的对比实验,证明了该模式在抽取长距离的实体关系方面有更杰出的效果。
全文翻译
使用Google翻译,不是很准确,可以做个参考
摘要
Joint entity and relation extraction is to detect entity and relation using a single model. In this paper, we present a novel unified joint extraction model which directly tags entity and relation labels according to a query word position p, i.e., detecting entity at p, and identifying entities at other positions that have relationship with the former. To this end, we first design a tagging scheme to generate n tag sequences for an n-word sentence. Then a position-attention mechanism is introduced to produce different sentence representations for every query position to model these n tag sequences. In this way, our method can simultaneously extract all entities and their type, as well as all overlapping relations. Experiment results show that our framework performances significantly better on extracting overlapping relations as well as detecting long-range relation, and thus we achieve state-of-the-art performance on two public datasets.
联合实体和关系提取是使用单个模型检测实体和关系。在本文中,我们提出了一种新颖的统一联合提取模型,该模型根据查询词位置p直接标记实体和关系标签,即在p处检测实体,并在与前者有关系的其他位置识别实体。为此,我们首先设计一种标记方案,以为n个单词的句子生成n个标记序列。然后引入位置注意机制为每个查询位置生成不同的句子表示,以对这n个标签序列进行建模。这样,我们的方法可以同时提取所有实体及其类型以及所有重叠关系。实验结果表明,在提取重叠关系以及检测远程关系方面,我们的框架性能显着提高,因此我们在两个公共数据集上实现了最新的性能。
引言
传统的RE系统将此任务分为流水线子任务:首先检测实体,然后对候选实体对之间的关系类型进行分类,这样的框架使任务易于执行 ,但忽略了这两个子任务之间的潜在相互依赖关系和错误传播(Li和Ji,2014; Gupta,Schutze和Andrassy,2016)。
与流水线方法不同,联合提取是使用联合模型来检测实体及其之间的关系。最近的研究表明,联合学习方法可以有效地整合实体和关系的信息,因此在两个子任务中均具有更好的性能。这些模型基于基于特征的结构化学习(Kate and Mooney 2010; Li and Ji 2014; Miwa and Sasaki 2014; Ren et al.2017),这些方法在很大程度上依赖于手工制作的特征和其他NLP工具包。已经应用了架构,其中大多数利用参数共享进行联合建模,但仍然需要用于实体识别和关系分类的显式单独组件(Miwa和Bansal 2016; Gupta,Schutze和Andrassy 2016)。相比之下,Zheng等人(2017b)提出了一种特殊的标记方案,将联合提取转换为序列标记问题,以统一的方式解决任务。 Zeng等人(2018)提出的另一种统一方法是采用具有复制机制的序列到序列学习方法。提取重叠关系时,他们的模型无法识别多词实体。总的来说,使用单个统一模型联合提取实体和重叠关系仍然具有挑战性。
在本文中,我们提出了一种新的统一方法,通过根据查询词位置p同时标记实体和关系标签来解决联合提取问题。给定一个句子和一个查询位置p,我们的模型将回答两个伪问题:是实体及其类型在p?处”和“哪个实体与p处的实体有关系?”为此,我们设计了一种特殊的标记方案,该方案在查询位置p处标注实体标签,并在其他位置标注关系标签。因此,它实际上将联合关系提取问题转换为序列标签问题列表,例如,对于n字句子,我们根据n个查询位置注释n个不同的标签序列。在单个统一模型中对这n个标记序列进行建模,将一种新颖的位置注意机制引入序列标记模型(参见图3),以生成n个不同的位置感知语句表示。 sed解码不同的标记结果,从中我们可以提取所有实体,它们的类型和所有重叠的关系。此外,所提出的注意力机制可以在单词(实体)之间建立直接联系,这可能有助于提取长距离关系(这两个实体之间的距离很长。)
本文的主要贡献是新提出的统一提取实体和重叠关系的统一模型。