AAAI 2017 | 基于语句级注意力与实体描述的远程监督关系抽取

本文针对远程监督关系抽取方法在选择有效实例和利用实体背景知识方面的不足,提出语句级注意力模型APCNNs及添加实体描述约束的APCNNs+D。通过在NYT数据集上进行held - out评估、人工评估和权重α分析,结果表明该方法优于baseline方法,能有效提升关系抽取效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

远程监督可将关系抽取扩展至包含大量关系的超大规模数据上。然而,已有方法在选择有效实例方面存在缺陷,而且缺少实体的背景知识。本文提出一种语句级的注意力模型用于选择有效实例,该模型在选择实例时充分利用来自知识库的监督信息。同时本文从Freebase和Wikipedia页面抽取实体的描述信息以补充背景知识。背景知识不仅为预测关系提供了更多信息,而且为注意力模块提供了更好的实体描述。三个实验的结果表明本文的方法优于所有的baseline方法。

论文地址:
www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/viewPaper/14491

引言

远程监督自动生成关系抽取训练数据的过程为:对于数据库中的三元组 r ( e 1 , e 2 ) r(e_1,e_2) r(e1,e2),将数据集中同时包含实体 e 1 e_1 e1 e 2 e_2 e2的全部语句作为关系 r r r的训练实例。然而,远程监督生成的关系抽取训练数据通常存在误标问题(wrong label problem),因为同时包含两个实体的语句可能仅仅与同一个主题相关,而并不表达它们在知识库中存在的关系。
在多实例学习MIL(Multi-Instance Learning)中,对于知识库中的三元组 r ( e 1 , e 2 ) r(e_1,e_2) r(e1,e2),同时包含实体 e 1 e_1 e1 e 2 e_2 e2的全部语句组成一个包(bag)并且将 r r r作为它的标签。Zeng等人在2015年将MIL与分段卷积神经网络PCNNs(Piecewise Convolutional Neural Networks)相结合(PCNNs+MIL),从包中选择最可能有效的一个语句用于预测关系,取得了较好的效果。
这种方法主要存在两个问题:1)一个包可能包含多个有效的语句,而只选择最可能有效的一个语句用于预测关系,显然没有充分利用包中的信息;2)实体描述提供的背景知识可帮助确定关系的类型,而目前已有方法没有在关系抽取中使用实体描述信息。

方法

本文提出的方法包括2个要点:1)语句级注意力模型APCNNs,使用PCNNs抽取语句的特征并通过注意力模块学习语句的权重;2)在APCNNs之上添加实体描述约束APCNNs+D,使用CNNs抽取实体描述的特征向量,并在APCNNs的目标函数上添加约束使其接近对应的实体向量。

APCNNs

包括PCNNs模块和语句级注意力模块。
PCNNs模块以语句的词向量和实体在语句中的相对位置向量的拼接作为输入,利用多个卷积核对向量矩阵进行卷积,利用分段最大池化(piecewise-max-pooling)对两个实体分割成的三个部分分别进行最大池化,得到一个向量,最后将经过tanh函数计算得到的结果作为语句的特征向量。
PCNNs模块
语句级注意力模块将两个实体的差向量作为关系的向量,计算PCNNs生成的语句向量和关系向量之间的相关度,并进一步计算注意力的权重,

其中 [ x 1 ; x 2 ] [x_1;x2] [x1;x2]表示向量 x 1 x_1 x1 x 2 x_2 x2的拼接, W a W_a Wa是权重参数矩阵, b a b_a ba是偏移参数向量, α i \alpha_i αi为实例的权重。
根据包中各个语句的向量及对应的注意力权重计算包的向量表示,

其中 b i b_i bi为语句的向量。
最后通过softmax函数计算各个关系的概率。
语句级注意力模块

实体描述

从Freebase和Wikipedia页面抽取实体的描述信息,通过一个单卷积-池化层的CNN抽取实体描述的特征向量,定义实体向量与描述向量之间的偏差函数,

其中 e i e_i ei为实体向量, d i d_i di为描述向量,并使该偏差函数尽可能小。

训练目标

在三种设置下训练模型。
1)APCNNs,其目标函数采用交叉熵形式:

其中 N N N为包总数, B i B_i Bi为包, r i r_i ri为包 B i B_i Bi对应的关系标签, θ \theta θ为参数。
2)APCNNs+D,其目标函数如下:

3)PCNNs+MIL+D,将 L e L_e Le作为PCNNs+MIL目标函数的约束。

实验

采用NYT数据集,分别进行held-out评估和人工评估。

held-out评估

1)总体上,APCNNs+D > PCNNs+MIL+D > APCNNs > baseline方法;
2)APCNNs > PCNNs+MIL,说明语句级注意力模型可在关系抽取中选择更多有效语句实例;
3)PCNNs+MIL+D > PCNNs+MIL,说明实体描述可提供背景知识以改进关系预测的准确性。
准确率/召回率曲线

人工评估

1)APCNNs > PCNNs+MIL,说明语句级注意力模型可在关系抽取中选择更多有效语句实例;
2)PCNNs+MIL+D>PCNNs+MIL,说明实体描述可提供背景知识以改进关系预测的准确率;
3)APCNNs+D具有最高准确率。
Top 100、Top 200、Top 500的准确率

权重 α \alpha α分析

表中共有5个实例,其中第4个无效,APCNNs和APCNNs+D给出较低权重,其余4个有效,APCNNs和APCNNs+D给出较高权重,说明语句级注意力可选择更多有效语句实例。另外APCNNs+D与APCNNs相比,对于无效实例可给出更低权重,对于有效实例可给出更高权重(除了第3个实例),说明实体描述可提高注意模块的性能。
权重示例

结论

本论文的实体描述部分通过引入额外信息改进关系抽取的能力,值得借鉴。


在这里插入图片描述
扫码识别关注,获取更多论文解读

### 关于 AAAI 2025 大会中的注意力机制 在探讨AAA I2025大会中注意力机制相关的论文或议题时,可以预见会议将聚焦于该领域最新的进展和技术应用。近年来,深度学习模型已经变得越来越复杂和庞大[^1],这表明未来的研究将继续探索如何优化现有架构以及创建新的方法来处理更大规模的数据集。 对于注意力机制而言,在自然语言处理(NLP)方面取得了显著成就之后,研究者们正试图将其扩展到其他领域,比如计算机视觉、时间序列分析等。因此,在即将举行的AAAI 2025大会上可能会讨论如下主题: - **多模态数据融合下的改进型注意力算法**:随着多媒体信息的增长,能够有效结合文本、图像等多种形式输入的新型注意力建模成为热点之一。 - **轻量化注意力网络的设计实现**:鉴于传统Transformer结构计算成本较高,针对资源受限环境(如移动设备)下高效运行的小型化版本将是重要方向。 ```python import torch.nn as nn class LightweightAttention(nn.Module): def __init__(self, d_model, num_heads=8): super(LightweightAttention, self).__init__() self.d_k = d_model // num_heads ... def forward(self, q, k, v, mask=None): ... ``` - **自适应动态调整权重策略**:使模型可以根据不同任务特点自动调节各部分的重要性程度,从而提高泛化能力和鲁棒性。 - **跨域迁移学习中的注意力引导**:利用源领域已有的知识指导目标领域的训练过程,特别是当两个领域间存在较大差异的情况下尤为关键。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值