Revisiting the Negative Data of Distantly Supervised Relation Extraction重温远程监督关系抽取中的负数据

本文关注无监督关系抽取中的噪声标签和数据不平衡问题,特别是假阴性关系的挑战。通过分析负面数据,将关系抽取转化为正的无标签学习任务,提出RERE模型,先抽取关系再抽取实体,以减少假阴性并解决数据不平衡。实验表明该方法有效,并可应用于监督场景。

在这里插入图片描述

1. 摘要

  • 无监督的关系抽取,存在两大问题:噪声标签、训练数据不平衡
  • 以往:研究集中在减少错误标签的关系(假阳性),很少研究由于知识库的不完备性导致的缺失关系(假阴性)
  • 本文的贡献:
    – 首先对负面数据进行分析
    – 接下来,将关系抽取表述为一个正的无标签学习任务,缓解假阴性问题
    – 提出模型RERE进行关系检测,然后进行subject和object提取

2. 问题分析

关系级别假阴性:抽取到的关系,在预定义的关系集中不存在
实体级别假阴性:S4、S5表示实体级别假阴性
在这里插入图片描述

阶级分布不平衡:负标签的数量远远大于正面标签的数量

2.1 解决假阴性问题

由百度百科标记的NYT数据集中的三元组为88253,由Wikidata标记的为58135。可以看到,由于知识库的不完备性,只用一个KB来标记,就会存在大量的FN,特别是当多个关系出现在一句中时,即使是人工标注。

2.2解决负面标签

采用先抽取关系,再抽取主体和客体的范式

3.模型

在这里插入图片描述

  1. 输入:[CLS],cic_ici,[SEP]
  2. 经过BERT生成token表示矩阵:Hrc∈RN×dH_{rc} \in R^{N \times d}HrcRN×d
  3. 将BERT输出的第一个token [CLS] 的编码向量 hrc0h_{rc}^{0}hrc0 作为句子表示,关系分类的最终输出为:yrc=σWhrc0+by_{rc}= \sigma{Wh^0_{rc}+b}yrc=σWhrc0+b
  4. 取关系分类的输出yrcy_{rc}yrc(onehot),使用每个检测到的关系(yrcy_{rc}yrc中1的个数)来生成query
  5. 构造MRC格式:[CLS],qiq_iqi,[SEP],cic_ici,[SEP]
  6. 将上述输入到BERT中,得到token表示矩阵Hee∈RN×dH_{ee} \in R^{N\times d}HeeRN×d
  7. 实体抽取的第K个输出指针由yeek=σWHee+by_{ee}^k=\sigma{WH_{ee}+b}yeek=σWHee+b

4. Experiments

在这里插入图片描述

5. 启示

  1. 先抽取关系再抽取实体的范式,可以应用到监督领域
  2. 可以对模型进一步提取特征
  3. 增加两者之间的关联性
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

「已注销」

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值