文献阅读课13-DSGAN: Generative Adversarial Training for (远程监督关系抽取,句子级去噪)


Qin, P., et al. (2018). DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).

Abstract

远程监督可以有效地标记关系提取的数据,但是受到噪声标记问题的困扰。最近的作品主要执行软袋级降噪策略,以找到句子包中相对较好的样本,与在句子级别做出假阳性样本的硬判决相比,这是次优的。在本文中,我们介绍了一个名为DSGAN的对抗性学习框架,用于学习一个句子级的真正生成器。受Generative Adversarial Networks的启发,我们将生成器生成的正样本视为负样本来训练鉴别器。获得最佳发生器,直到鉴别器的辨别能力下降最大。我们采用生成器来过滤远程监督训练数据集,并将误报实例重新分配到负集中,从而为关系分类提供清洁的数据集。实验结果表明,与现有技术系统相比,该策略显着提高了远程监督关系提取的性能。

  • 关系抽取
    • 已知文本中实体,对句子中存在的实体对的关系进行预测
    • 远程监督
    • 使用句子包
      • (h,r,t)三元组的句子分在一个包中
      • 远程监督存在噪音
      • 以GAN来去除噪音,获得噪音低的包
        • 生成器:找到句子中好的样本
        • 判别器:将生成器产生的样本视作负样本来训练
          在这里插入图片描述

1.Introduction

由于现实世界中存在大量事实,因此非常昂贵,并且人类注释器几乎不可能对训练数据集进行注释以满足各行各业的需求。这个问题越来越受到关注。 Fewshot学习和零镜头学习(Xian et al。,2017)尝试用很少的标记数据预测看不见的类,甚至没有标记数据。不同的是,远程监督(Mintz et al。,2009; Hoffmann et al。,2011; Surdeanu et al。,2012)是为了与远程监督(DS)之间看不见的关系,从纯文本中有效地生成关系数据。然而,它自然会带来一些缺陷:由此产生的远程监督训练样本通常非常嘈杂(如图1所示),这是阻碍性能的主要问题(Roth等,2013)。大多数当前最先进的方法(Zeng et al。,2015; Lin et al。,2016)在实体对的句子包中进行去噪操作,并将此过程整合到远程监管关系中。 。实际上,这些方法可以过滤大量的噪声样本;然而,他们忽略了一个实体对的所有句子都是假阳性的情况,这也是远程监管数据集中的常见现象。在这种考虑下,一个独立而准确的句子级降噪策略是更好的选择。
在本文中,我们设计了一个对抗性学习过程(Goodfellow等,2014; Radford等,2015),以获得一个句子级生成器,它可以识别来自嘈杂的远程监督数据集的真实阳性样本,而无需任何监督信息。在图1中,假阳性样本的存在使得DS决策边界不是最理想的,因此阻碍了关系提取的性能。然而,就数量而言,真阳性样本仍占据大部分比例;这是我们方法的先决条件。给定具有DS数据集决策边界的鉴别器(图1中的棕色决策边界),生成器尝试从DS正数据集生成真正的正样本;然后,我们为生成的样本分配负标签,其余样本分配正标签以挑战鉴别器。在这种对抗性设置下,如果生成的样本集包含更多真实的阳性样本,并且剩余集合中剩余更多的假阳性样本,则鉴别器的分类能力将下降得更快。根据经验,我们证明了我们的方法在各种基于深度神经网络的模型中带来了一致的性能提升,在广泛使用的纽约时报数据集上实现了强大的性能(Riedel等,2010)。我们的贡献是三方面的:

  • 标注困难
    • few-shot:通过少量标注来预测不可见的类
    • zero-shot:无标注来预测不可见的类
    • 远程监督:
      • 噪声大
        • 去噪
        • 以前:在实体对的句子包中去噪
          • 忽略了实体对的所有句子均是假阳性FP的可能
            • 假阳性:预测为真,实际为假
            • 在远程监督中很常见
        • 解决:独立而准确的句子级去噪

2.相关工作

为了解决上述数据稀疏性问题,Mintz等人。 (2009)首先通过远程监督将未标记的文本语料库与Freebase对齐。然而,远程监督不可避免地受到错误的标签问题的困扰。早期的工作不是明确地去除噪声实例,而是打算抑制噪声。Riedel等。 (2010)在关系抽取中采用多实例单标签学习;霍夫曼等人。 (2011年)和Surdeanu等人。 (2012)模型远程监督关系提取作为多实例多标签问题。
最近,已经提出了一些基于深度学习的模型(Zeng等人,2014; Shen和Huang,2016)来解决关系提取问题。当然,有些作品试图通过深度学习技术来缓解错误的标注问题,并将它们的去噪过程集成到关系提取中。曾等人。 (2015)选择一个最合理的句子来表示实体对之间的关系,这不可避免地错过了一些有价值的信息。林等人。 (2016)计算一个实体对的所有句子的一系列软注意权重,不正确的句子可以减权;基于同样的想法,Ji等人。 (2017)将有用的实体信息带入注意力量的计算中。然而,与这些软注意权重分配策略相比,在关系提取之前识别来自远程监督数据集的真实阳性样本是更好的选择。Takamatsu等。 (2012)基于从许多NLP工具中提取的语言特征构建噪声滤波策略,包括NER和依赖树,这不可避免地会遇到错误传播问题;而我们只是利用字嵌入作为输入信息。在这项工作中,我们学习了一个真正的识别器(生成器),它独立于实体对的关系预测,因此它可以直接应用于任何现有的关系提取分类器之上。然后,我们将假阳性样本重新分配到负集中,以便充分利用远程标记的资源。

  • 远程监督
    • Mintz et al. (2009) 提出:对齐
    • 噪音
      • 早期:抑制噪音
        • Riedel et al. (2010) :多实例单标签学习
        • Hoffmann et al. (2011) and Surdeanu et al. (2012) :多实例多标签
      • 深度学习:将深度学习去噪集成到关系抽取中
        • Zeng et al. (2015) :句子包里挑一个
          • 错过了有价值的信息
        • Lin et al. (2016):soft attention
          • 给包中的句子加权
        • Ji et al. (2017):attention中包含了实体信息
      • 在关系抽取之前,分辨出真假样本:
        • Takamatsu et al. (2012) :噪声滤波器
          • 使用NER和依赖树的语言特征
          • 难以避免错误传递
        • 本文:仅使用word embedding

3 Adversarial Learning for Distant Supervision

在这里插入图片描述

在本节中,我们将介绍一种对抗性学习流程,以获得一个强大的生成器,该生成器可以在没有任何监督信息的情况下从嘈杂的远程监督数据集中自动发现真正的正样本。我们的对抗性学习过程概述如图2所示。给定一组远程标记的句子,生成器试图从中生成真正的正样本;但是,这些生成的样本被视为负样本以训练鉴别器。因此,当完成扫描DS阳性数据集一次时,生成器发现的真实阳性样本越多,鉴别器获得的性能就越明显。在对抗训练之后,我们希望获得一个强大的发生器,它能够迫使鉴别器最大程度地丧失其分类能力。
在下一节中,我们描述了发生器和鉴别器之间的对抗性训练管道,包括训练前策略,目标函数和梯度计算。由于生成器涉及离散采样步骤,因此我们引入了一种策略梯度方法来计算发电机的梯度。

  • DSGAN
    • 目标:区分句子是不是好样本
      • 只对标注为T的样本做区分,将FP重新归于负类
    • 假设:标注为真的样本,多数为TP
    • 生成器:区分句子是TP还是FP,无需监督
      • 策略梯度:因为涉及离散采样
    • 输入:word-embedding
    • 判别器:
      • 将生成器生成的样本标注为F
      • 原来的样本,标注为T
      • 训练判别器
      • 如果生成集合中,TP多,而剩余集合中FP多,则鉴别器分类能力下降的很快
    • 贡献
      • 我们是第一个考虑对抗性学习去噪远程监督关系提取数据集的人。
      • 我们的方法是句子级和模式诊断,因此它可以用作任何关系提取器(即插即用技术)。
      • 我们证明我们的方法可以在没有任何监督信息下生成一个干净的数据集,从而提高最近提出的神经关系提取器的性能。

3.1 Pre-Training Strategy

  • GANs:
    • 预训练:生成器和判别器
      • 必须
      • 目标:得到更好的初始化参数,容易收敛
      • 判别器:远程监督数据集的positive set P和negtive set N D N^D ND
      • 生成器:
        • 预训练到精度达到90%
        • 使用P和另一个negtive set N G N^G NG
        • 让生成器对P过拟合
          • 目标:让生成器在训练过程开始时错误地给出所有有噪声的DS的阳性样本高概率
            • 之后会通过对抗学习降低FP的这个概率

3.2 Generative Adversarial Training for Distant Supervision Relation Extraction

DSGAN的生成器和鉴别器都由简单的CNN建模,因为CNN在理解句子方面表现良好(Zeng et al。,2014),并且它具有比基于RNN的网络更少的参数。对于关系提取,输入信息由句子和实体对组成;因此,作为共同背景(Zeng et al。,2014; Nguyen and Grishman,2015),我们使用字嵌入和位置嵌入将输入实例转换为连续的实值向量。

  • 网络
    • CNN:
      • 参数比RNN少
      • 语言理解能力强
    • 输入:句子+实体对
      • 使用:word embedding + position embedding
  • 生成器
    • 与计算机视觉的区别
      • 不用生成全新的句子(图),只需要从集合中判别出TP即可
    • 是“从概率分布中抽样 ”的离散的GANs
  • 句子 s j s_j sj是TP的概率
    • 生成器: P G ( s j ) P_G(s_j) PG(sj)
    • 判别器: P D ( s j ) P_D(s_j) PD(sj)
  • 1个epoch扫描一次P
  • 更有效的训练+更多反馈
    • P–>划分成N个batch
    • 处理完一个batch,更新一次参数 θ G , θ D \theta_G,\theta_D θG,θD
  • 目标函数
    • 生成器
      • 对一个batch B i B_i Bi,生成器得到他的概率分布 { P G ( s j ) } j = 1 , . . . , ∣ B i ∣ \{P_G(s_j)\}_{j=1,...,|B_i|} { PG(sj)}j=1,...,Bi
      • 依据这个概率分布采样,得到集合T
      • T = { s j } , s j   P G ( s j ) , j = 1 , 2 , . . . , ∣ B i ∣ T=\{s_j\},s_j~P_G(s_j),j=1,2,...,|B_i| T={
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值