UNSUPERVISED DATA AUGMENTATION FOR CONSISTENCY TRAINING
Summary
- 将监督学习中常用的数据增强方式应用于半监督学习。
- 在图像分类中应用RandAugment方法,文本分类中使用Back-translation和Word replacing with TF-IDF方法。
- 提出TSA方法来处理有标签样本和无标签样本数据不平衡问题。
- 在6项文本任务和3项图像任务中进行实验,取得优异的结果。
Problem Statement
- 深度学习的缺陷在于它通常需要大量的标记数据才能work well。
- 近年来,在设计NLP、VISION和Speech方面,数据增强方面取得了重大进展。尽管取得了很好的效果,但数据增强大多被认为是蛋糕上的樱桃,它提供了稳定但有限的性能提升,因为到目前为止,这些增强只适用于一组标有标签的示例,这些例子通常都是小尺寸的。
Research Object
- 提出用高质量的数据增强方法代替传统的噪声注入方法,提高训练的一致性。
Methods
Unsupervised Data Augmentation (UDA)
针对分类任务,使用 x x x指代input, y ∗ y^* y∗指代ground-truth prediction target,旨在学习一个模型 p θ ( y ∣ x ) p_θ(y|x) pθ(y∣x),基于 x x x来预测 y y y, θ θ θ指代模型参数, L L L和 U U U来分别指代带标签和不带标签的样本。
1.Background: Supervised Data Augmentation
q
(
x
^
∣
x
)
q(\hat{x}|x)
q(x^∣x)为
x
x
x到增强样本
x
^
\hat{x}
x^的增强变换,
x
x
x和
x
^
\hat{x}
x^共享同一个ground-truth label。给定有效的增强变换,我们可以简单地将增强样例进行负对数似然最小化。
数据增强在NLP、VISION、SPEECH领域都有使用,但被认为是蛋糕上的樱桃,它提供了稳定但有限的性能提升,因为到目前为止,这些增强只适用于一组标有标签的示例,这些例子通常都是小尺寸的。出于这一限制,通过一致性训练框架,我们将监督数据增强的进展扩展到有大量未标记数据的半监督学习。
2.Unsupervised Data Augmentation
半监督学习的最新工作是利用未标记的示例来增强模型的smoothness。这些工作的一般形式可概括如下:
- Given an input x x x, compute the output distribution p θ ( y ∣ x ) p_θ(y|x) pθ(y∣x) given x x x and a noised version p θ ( y ∣ x , ϵ ) p_θ(y|x,\epsilon) pθ(y∣x,ϵ) by injecting a small noise ϵ \epsilon ϵ. The noise can be applied to x x x or hidden states.
- Minimize a divergence metric between the two distributions
D
(
p
θ
(
y
∣
x
)
∣
∣
p
θ
(
y
∣
x
,
ϵ
)
)
D(p_θ(y|x)||p_θ(y|x,\epsilon))
D(pθ(y∣x)∣∣pθ(y∣x,ϵ))
此过程强制使模型对噪声不敏感,因此相对于输入(或隐藏)空间的变化更平滑。 从另一个角度来看,将一致性损失降至最低会逐渐将标签信息从已标记的数据传播到未标记的数据。
在此工作中,我们对将噪声注入input
x
x
x的特定设置感兴趣,
x
^
=
q
(
x
∣
ϵ
)
\hat{x}=q(x|\epsilon)
x^=q(x∣ϵ)
但是与现有工作不同,我们关注如下问题,即噪声操作q的形式或“质量”如何影响一致性训练框架的性能。 具体而言,为了增强一致性,现有方法通常采用简单的噪声注入方法,例如添加高斯噪声,对未标记噪声的示例进行简单的输入增强。相反,我们认为,在半监督学习框架中,使用在监督学习中的数据增强功能来处理未标记数据也可以带来更好的性能,因为已经证明:更多样化和更自然的高级数据增强可以在监督模型中显著提高性能。
整体的loss由使用权重因子 λ \lambda λ平衡有监督的cross entropy和无监督的consistency training loss组成,过程如图1所示,也可写成: min θ J ( θ ) = E x , y ∗ ∈ L [ − log p θ ( y ∗ ∣ x ) ] + λ E x ∈ U E x ^ ∼ q ( x ^ ∣ x ) [ D K L ( p θ ~ ( y ∣ x ) ∣ ∣ p θ ( y ∣ x ^ ) ) ] \min \limits_\theta J(\theta)=E_{x,y^*\in L}[-\log p_\theta(y^*|x)]+ \lambda E_{x\in U}E_{ \hat{x} \sim q(\hat{x}|x)} [D_{KL}(p_{{\tilde \theta}}(y|x)||p_\theta(y|\hat{x}))] θminJ(θ)=Ex,y∗∈L[−logpθ(y∗∣x)]+λEx∈UEx^∼q(x^∣x)[DKL(pθ~(y∣x)∣∣pθ(y∣x^))] q ( x ^ ∣ x ) q(\hat{x}|x) q(x^∣x)是数据增强转换, θ ~ {\tilde \theta} θ~是当前参数 θ \theta θ的固定副本,指梯度并不通过 θ ~ {\tilde \theta} θ~传播。
Discussion.在详细介绍本工作中使用的增强操作之前,我们首先从以下三个方面介绍更高级的数据增强如何提供比早期工作中使用的简单方式更多的优势:
- Valid noise:在监督学习中表现出色的高级数据扩充方法通常会生成真实的扩充数据,这些数据与原始数据共享相同的标签。 因此,可以有效确保对原始未标记数据和增强未标记数据预测的一致性。
- Diverse noise:由于高级数据增强可以对输入数据进行较大的改动而不改变其标签,所以它具有更强的多样性,而例如高斯噪声只改变了局部信息。
- Targeted inductive biases:不同的任务需要不同的归纳偏差。在监督训练中工作良好的数据增强操作本质上提供了缺失的归纳偏差。
3.Augmentation Strategies For Different Tasks
-
RandAugment for Image Classification: AutoAugment通过在所有的图像处理转换方式中进行搜索,以便找到一个最优的增强策略。RandAugment(Cubuk et al.,2019)受AutoAugment方法启发,但是没有使用搜索,而是在图像增强转换集合中进行均匀采样,它更简单,不要求数据具有标签。
-
Back-translation for Text Classification: Back-translation指的是把一个样本(语言A)转换成另一个语言B再转换回来,以此得到增强样本,在保留原始语义的同时带来更多样性的表达,它在问答系统中取得了良好的表现。
-
Word replacing with TF-IDF for Text Classification: 在文章附录C中有详细描述。
4.Training Signal Annealing For Low-Data Regime
有标签数据和无标签数据数据量不平衡问题,会导致模型对有标签数据过拟合,或无标签数据欠拟合。针对此类问题,本文提出了TSA(Training Signal Annealing)方法,它会在训练过程中逐步释放有标签样本的"training signals",如果这个样本在第
t
t
t步训练时的
p
θ
(
y
∗
∣
x
)
p_\theta(y^*|x)
pθ(y∗∣x)即正确预测其标签的概率值大于阈值
η
t
\eta_t
ηt,那么就把它从loss function中移除,从而减少过拟合现象。假设共有
K
K
K个类别,令
η
t
\eta_t
ηt逐步从
1
/
K
1/K
1/K升至
1
1
1。下图是TSA的三种进度,
T
T
T指代总共的训练次数。
Experiments
6项语言任务:
- sentiment classification(IMDb,Yelp-2,Yelp-5,Amazon-2,Amazon-5)、DBPedia topic classification
3项视觉任务:
- CIFAR-10,SVHN,ImageNet
1.Correlation Between Supervised And Semi-Supervised Performances
2.Algorithm Comparison On Vision Semi-Supervised Benchmarks
UDA和目前已有的半监督学习算法相比如何?
-
Vary the size of labeled data
UDA与VAT以及MixMatch这两个baseline相比有着明显的优越性;
UDA和VAT的主要差别在于噪声处理,VAT生成的高频图像在现实中并不存在,UDA生成的图像具有多样性和真实性。
-
Comparisons with published results
3.Evaluation On Text Classificaiton Datasets
- Results with different labeled set sizes
4.Scalability Test On The ImageNet Dataset
5.Ablation Studies For TSA
其它实验细节在文章附录中有详细描述。
Conclusion
本文说明数据增强和半监督学习能够良好地结合,良好的数据增强可以为半监督学习带来显著地提升。UDA采用在监督学习中的数据增强方式来生成多样和真实的噪声数据并使模型对这些噪声保持一致性。在文本任务中,UDA和表示学习良好结合,如BERT,并且在数据量少的情况下取得了优异的表现。在视觉任务中,UDA的表现显著超越之前的模型并取得了和监督学习媲美的结果。UDA可以有效利用额外的无标签数据。希望未来有更多的研究将监督学习的数据增强应用于各种半监督学习之中。
Notes
文章附录记载了未在正文中具体描述的实验内容,以及训练过程中的部分细节信息。