链接: https://arxiv.org/abs/2109.01758
代码:https://github.com/RiTUAL-UH/style_NER.
Abs& Intro
本文研究了通过数据投影将高资源域的数据投影至低资源域。具体来说,我们提出了一种新的神经架构,通过学习模式(如风格、噪声、缩写等),将数据表示从高资源领域转换为低资源领域。在区分它们的文本和将两个域对齐的共享特征空间中。我们对不同的数据集进行了实验,并表明,将数据转换为低资源域表示比仅使用来自高资源域的数据取得了显著的改进。
本文贡献:
1.我们提出了一种新的神经结构,它可以学习文本模式,并有效地将文本从高资源领域转换为低资源领域。
2.我们在包括6个不同的域和10个不同的域对在内的两个数据集上系统地评估了我们提出的方法,并证明了跨域数据增强对NER任务的有效性。
3.我们在低资源场景中通过经验探索了我们的方法,并暴露了我们的方法可以有利于低资源NER任务的情况
method
本文方法可以看做三个阶段:
- 去噪重建的神经结构: 首先我们随机配对来自Dsrc的一个句子和来自Dtgt的一个句子作为模型的输入。该模型从逐字去噪重构开始,然后是去变换重构。在去噪重建中,我们的目标是训练模型学习基于监督域的输入的表示。我们通过变换、删除或屏蔽一些单词来向每个输入句子注入噪声(如下图)。编码器被训练来捕获文本语义,并学习使每个句子不同于其他领域的句子的模式。然后,我们通过最小化一个训练目标来训练解码器,该目标衡量其从相应领域的噪声版本重构每个句子的能力。
- 分解重构:目标是根据文本语义将句子从一个域转换到另一个域。我们首先将前一个训练步骤中的模型作为输入,将每个句子从源/目标域转换到目标/源域,然后,编码器为转换后的句子生成隐层表示。之后,与去噪重构不同的是,这里的解码器被训练从其转换后的版本在相应的域内重构每个句子。
- 鉴别器: 上述两个阶段,最后均有一个鉴别器模块,鉴别器的作用是给出给定的潜在向量是否实际上来自源域或目标域。首先对鉴别器进行去噪重构训练,然后,编码器将改进其技术,以欺骗鉴别器,最终捕获文本的模式,将文本从源/目标域转换到目标/源域。最终鉴别器再在去变换重构中进行微调,以区分源域句子和目标域句子。整体是一个对抗训练的思路。
EXP
我们的跨域自编码器模型对每个域对的结果,指标代表困惑度量。其中NW和SM代表两个不同的域。NW的文本模式与其他领域相似,而SM的文本模式与其他领域有很大的不同
2.
10个不同域对的NER任务的数据增强的结果。分数是用macro-f1度量来计算的。具有相似文本模式的对有下降的趋势(↓);具有不同文本模式的对的分数往往会增加(↑)。三行指标,第一行代表下限,中间代表正常实验的指标,最后一行代表上限。
3.
作者模型与其他跨领域模型的性能对比
总结:这篇题目虽然是数据增强,但是不是传统意义的数据增强,直接替换同义词等。他是用已有高资源域的数据去生成低资源域的数据,方法也很巧妙,相当于先训练一个模型可以生成句子且具有一定鲁棒性,通过鉴别器去区分,然后生成器将高资源域转化成低资源域,再去迷惑鉴别器来调优,是一种对抗训练的思路。