R-Drop: Regularized Dropout for Neural Networks

R-Drop是一种正则化策略,通过约束dropout产生的子模型输出分布一致性,解决训练和推理的不一致问题。在神经机器翻译、语言理解、摘要生成、语言建模和图像分类等任务上表现出色。通过双向KL散度控制子模型输出分布,实现在多个任务上的性能提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文目的

dropout会给训练和测试的过程中带来不一致,regularize dropout 简单的一致性训练策略,迫使dropout产生的子模型输出分布一致,这是通过约束每个样本两个子模型的输出的双向KL散度来达到的。在 neural machine translation, abstractive summarization, language understanding, language modeling, and image classification五个任务上做了实验。

方法

在这里插入图片描述

R-Drop Regularization

training data D=(xi,yi)i=1nD={(x_i,y_i)}_{i=1}^nD=(xi,yi)i=1n
loss function Lnll=1n∑i=1n−log⁡pw(yi∣xi)L_{nll}=\frac{1}{n}\sum_{i=1}^n-\log p^w(y_i|x_i)Lnll=n1i=1nlogpw(yixi)
训练阶段使用的带有随机dropout单元的子模型,推理阶段用的是没有dropout的全模型,这会带来训练和推理的不一致性,没有限制随机dropout单元产生的子模型是不同的。
训练阶段,样本xix_ixi进入前向网络两次,会得到两个不同的输出p1w(yi∣xi)p_1^w(y_i|x_i)p1w(yixi)p2w(yi∣xi)p_2^w(y_i|x_i)p2w(yixi),虽然主模型是一样的,但是因为dropout的原因,使得两个输出的分布式不一致的,使用双向KL散度控制这两个分布一致
KL divergence LKLi=12(DKL(p1w(yi∣xi)∣∣p2w(yi∣xi))+DKL(p2w(yi∣xi)∣∣p1w(yi∣xi)))L_{KL}^i=\frac{1}{2}(D_{KL}(p_1^w(y_i|x_i)||p_2^w(y_i|x_i))+D_{KL}(p_2^w(y_i|x_i)||p_1^w(y_i|x_i)))LKLi=21(DKL(p1w(yixi)p2w(yixi))+DKL(p2w(yixi)p1w(yixi)))
两个前向结果的loss Lnll=−log⁡p1w(yi∣xi)−log⁡p2w(yi∣xi)L_{nll}=-\log p_1^w(y_i|x_i)-\log p_2^w(y_i|x_i)Lnll=logp1w(yixi)logp2w(yixi)
final training objective Li=Lnlli+αLKLiL^i=L_{nll}^i+\alpha L_{KL}^iLi=Lnlli+αLKLi
只要模型中带有随机性(dropout),这个KL散度的损失便可以添加,应用性很广啊。。

Training Algorithm

在这里插入图片描述
将x在一个batch size内重复两次,就可以使用R-drop了

Experiments

Application to Neural Machine Translation

低资源IWSLT数据集
高资源WMT数据集
基础模型:transformer
在这里插入图片描述
在这里插入图片描述

Application to Language Understanding

GLUE:MNLI, MRPC, QNLI, QQP, RTE, SST-2, STS-B (regression), CoLA
STS-B任务将KL散度替换为MSE
基础模型:bert和roberta
在这里插入图片描述

Application to Summarization

CNN/Daily Mail dataset 生成任务
基础模型:BART
在这里插入图片描述

Application to Language Modeling

Wikitext-103 dataset
基础模型:basic Transformer decoder和Adaptive Input Transformer
在这里插入图片描述

Application to Image Classification

CIFAR-100 and the ILSVRC-2012 ImageNet dataset
基础模型:ViT
在这里插入图片描述
α\alphaα在这几个试验中都是不同的,说明实际使用过程中,需要对之调参吧

阅读感官

R-drop从两个子模型输出结果分布应该一致的角度考虑,降低了训练阶段和推理阶段的不一致,在有监督的任务上添加一个KL散度,几乎将尝试的任务效果都提升了,而且部分任务上效果的确很好。https://spaces.ac.cn/archives/8496 中苏神将之用于半监督任务,也有不错的效果。

https://arxiv.org/pdf/2106.14448v2.pdf
https://github.com/dropreg/R-Drop

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值