今天给大家介绍的是Facebook AI研究团队发表在arXiv上的一篇文章“Self-training Improves Pre-training for Natural Language Understanding”。作者在文章中提出,可以利用自训练提升自然语言理解的预训练模型,并且提出了一种用于数据增强的新方法——SentAugment,可从大规模无标签的网络句子中检索用于特定任务的无标签句子,辅助语言模型的自训练过程。实验表明,SentAugment实现了有效的自训练,并且在知识蒸馏和小样本学习上有明显效果。
1
研究背景
自训练是一种半监督学习方法,它使用有标签数据训练一个教师模型,再用训练后的教师模型为无标签数据创建合成标签。这些带有合成标签的数据被用于训练一个学生模型,使得学生模型具有与教师模型相似或更好的性能。最近在自然语言理解上的工作通常集中在预训练模型上,而自训练也是利用无标签数据的一种有效方法。作者在预训练基准上引入自训练,通过研究表明自训练是对自然语言理解的强大预训练模型的一种补充。
此外,无标签数据通常是半监督学习的一个重要组成部分。但是,现有的工作通常假设这些无标签数据来自与下游任务相同的领域,该假设限制了半监督方法的应用,尤其是在数据较少的下游任务中。为此,作者在本文中提出了一种数据增强方法——SentAugment,用于从网络上爬取的数据中,为给定任务构建相同领域的数据集。实验表明,SentAugment可有效辅助模型自训练,知识蒸馏和小样本学习。
2
方法
2.1 检索策略
SentAugment方法使用网络数据作为句子库。首先,使用一种通用句子编码器对句子库中的每个句子进行嵌入,这个编码器对于有相近意思的句子输出相似表示。这些句子表示被用于检索特定任务相关的无标签数据。其次,使用同样的通用句子编码器对下游任务的训练数据集进行嵌入,然后根据训练数据集的嵌入表示计算出任务嵌入。任务嵌入的计算方法有以下三种:(1)all-average:计算训练数据集中的所有嵌入表示的平均嵌入表示;(2)label-average:分别为每个类别的数据计算一个平均嵌入;(3)per-se
自训练与SentAugment

本文介绍了Facebook AI团队的研究成果,提出使用自训练方法提升预训练模型的效果,并介绍了一种新的数据增强方法SentAugment,该方法可以从网络数据中检索特定任务的无标签句子,辅助模型训练,在知识蒸馏和小样本学习上表现出显著效果。
最低0.47元/天 解锁文章
9092

被折叠的 条评论
为什么被折叠?



