远程监督可将关系抽取扩展至包含大量关系的超大规模数据上。然而,已有方法在选择有效实例方面存在缺陷,而且缺少实体的背景知识。本文提出一种语句级的注意力模型用于选择有效实例,该模型在选择实例时充分利用来自知识库的监督信息。同时本文从Freebase和Wikipedia页面抽取实体的描述信息以补充背景知识。背景知识不仅为预测关系提供了更多信息,而且为注意力模块提供了更好的实体描述。三个实验的结果表明本文的方法优于所有的baseline方法。
论文地址:
www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/viewPaper/14491
引言
远程监督自动生成关系抽取训练数据的过程为:对于数据库中的三元组
r
(
e
1
,
e
2
)
r(e_1,e_2)
r(e1,e2),将数据集中同时包含实体
e
1
e_1
e1和
e
2
e_2
e2的全部语句作为关系
r
r
r的训练实例。然而,远程监督生成的关系抽取训练数据通常存在误标问题(wrong label problem),因为同时包含两个实体的语句可能仅仅与同一个主题相关,而并不表达它们在知识库中存在的关系。
在多实例学习MIL(Multi-Instance Learning)中,对于知识库中的三元组
r
(
e
1
,
e
2
)
r(e_1,e_2)
r(e1,e2),同时包含实体
e
1
e_1
e1和
e
2
e_2
e2的全部语句组成一个包(bag)并且将
r
r
r作为它的标签。Zeng等人在2015年将MIL与分段卷积神经网络PCNNs(Piecewise Convolutional Neural Networks)相结合(PCNNs+MIL),从包中选择最可能有效的一个语句用于预测关系,取得了较好的效果。
这种方法主要存在两个问题:1)一个包可能包含多个有效的语句,而只选择最可能有效的一个语句用于预测关系,显然没有充分利用包中的信息;2)实体描述提供的背景知识可帮助确定关系的类型,而目前已有方法没有在关系抽取中使用实体描述信息。
方法
本文提出的方法包括2个要点:1)语句级注意力模型APCNNs,使用PCNNs抽取语句的特征并通过注意力模块学习语句的权重;2)在APCNNs之上添加实体描述约束APCNNs+D,使用CNNs抽取实体描述的特征向量,并在APCNNs的目标函数上添加约束使其接近对应的实体向量。
APCNNs
包括PCNNs模块和语句级注意力模块。
PCNNs模块以语句的词向量和实体在语句中的相对位置向量的拼接作为输入,利用多个卷积核对向量矩阵进行卷积,利用分段最大池化(piecewise-max-pooling)对两个实体分割成的三个部分分别进行最大池化,得到一个向量,最后将经过tanh函数计算得到的结果作为语句的特征向量。
语句级注意力模块将两个实体的差向量作为关系的向量,计算PCNNs生成的语句向量和关系向量之间的相关度,并进一步计算注意力的权重,
其中
[
x
1
;
x
2
]
[x_1;x2]
[x1;x2]表示向量
x
1
x_1
x1与
x
2
x_2
x2的拼接,
W
a
W_a
Wa是权重参数矩阵,
b
a
b_a
ba是偏移参数向量,
α
i
\alpha_i
αi为实例的权重。
根据包中各个语句的向量及对应的注意力权重计算包的向量表示,
其中
b
i
b_i
bi为语句的向量。
最后通过softmax函数计算各个关系的概率。
实体描述
从Freebase和Wikipedia页面抽取实体的描述信息,通过一个单卷积-池化层的CNN抽取实体描述的特征向量,定义实体向量与描述向量之间的偏差函数,
其中
e
i
e_i
ei为实体向量,
d
i
d_i
di为描述向量,并使该偏差函数尽可能小。
训练目标
在三种设置下训练模型。
1)APCNNs,其目标函数采用交叉熵形式:
其中
N
N
N为包总数,
B
i
B_i
Bi为包,
r
i
r_i
ri为包
B
i
B_i
Bi对应的关系标签,
θ
\theta
θ为参数。
2)APCNNs+D,其目标函数如下:
3)PCNNs+MIL+D,将
L
e
L_e
Le作为PCNNs+MIL目标函数的约束。
实验
采用NYT数据集,分别进行held-out评估和人工评估。
held-out评估
1)总体上,APCNNs+D > PCNNs+MIL+D > APCNNs > baseline方法;
2)APCNNs > PCNNs+MIL,说明语句级注意力模型可在关系抽取中选择更多有效语句实例;
3)PCNNs+MIL+D > PCNNs+MIL,说明实体描述可提供背景知识以改进关系预测的准确性。
人工评估
1)APCNNs > PCNNs+MIL,说明语句级注意力模型可在关系抽取中选择更多有效语句实例;
2)PCNNs+MIL+D>PCNNs+MIL,说明实体描述可提供背景知识以改进关系预测的准确率;
3)APCNNs+D具有最高准确率。
权重 α \alpha α分析
表中共有5个实例,其中第4个无效,APCNNs和APCNNs+D给出较低权重,其余4个有效,APCNNs和APCNNs+D给出较高权重,说明语句级注意力可选择更多有效语句实例。另外APCNNs+D与APCNNs相比,对于无效实例可给出更低权重,对于有效实例可给出更高权重(除了第3个实例),说明实体描述可提高注意模块的性能。
结论
本论文的实体描述部分通过引入额外信息改进关系抽取的能力,值得借鉴。

扫码识别关注,获取更多论文解读