对抗训练-smart 论文阅读笔记

原创

已于 2022-12-05 17:22:00 修改 · 2k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #深度学习 #pytorch

于 2021-04-09 16:35:14 首次发布

本文介绍SMART框架，通过引入对抗训练的smoothness-inducing adversarial regularization和Bregman proximal point optimization，提升BERT等模型在NLP任务中的表现。关键在于通过扰动保持模型输出一致性，减少过拟合，同时利用动量加速优化过程。

对抗训练-smart 论文阅读笔记

SMART: Robust and Efficient Fine-Tuning for Pre-trained NaturalLanguage Models through Principled Regularized Optimization

论文地址 :https://arxiv.org/abs/1911.03437
code地址 : Fine-tuning code and models
时间 : 2020-10
机构 : microsoft,gatech
关键词: 对抗训练 NLP BERT
效果评估:（2020-10） pro-posed framework achieves new state-of-the-artperformance on a number of NLP tasks includ-ing GLUE, SNLI, SciTail and ANLI. More-over, it also outperforms the state-of-the-art T5model, which is the largest pre-trained modelcontaining 11 billion parameters, on GLUE

简介

文中作者提出了一个新的框架SMART，用于对预先训练好的语言模型进行微调时增加其鲁棒性，关键点有两处：

Smoothness-Inducing Adversarial Regularization
Bregman Proximal Point Optimization

Smoothness-Inducing Adversarial Regularization

模型: $f(\cdot;\theta)$
数据个数: $n$
数据: ${(x_i,y_i)\}_{i=1}^n$
$\qquad$ $x_i$ 表示输入语句的embedding，可以从模型的第一个embedding层获取到。
$\qquad$ $y_i$ 表示对应的label
文中主要是在fine-tuning时优化的下面的函数:
$min_\theta\mathcal{F}(\theta)=\mathcal{L}(\theta) + \lambda_s\mathcal{R}(\theta) \tag1$
这里：
$\qquad$ $\mathcal{L}(\theta)$ 是整体的loss： $\mathcal{L} = \frac{1}{n}\sum_{i=1}^{n} \mathcal{l}(f(x_i;\theta),y_i)$ , $其中\mathcal{l}(\cdot,\cdot)$ 是损失函数由具体的任务决定；
$\qquad$ $\lambda_s > 0$ 是一个可调的参数；
$\qquad\mathcal{R}_s(\theta)$ 就是 smoothness-inducing adversarial regularizer，具体如下:
$\mathcal{R}(\theta)=\frac{1}{n}\sum_{i=1}^{n}max_{\rVert{\tilde{x_i}-x_i}\rVert_{\mathcal{p}}\le\epsilon}\mathcal{l_s}(f(\tilde{x_i};\theta),f(x_i;\theta))$
$\qquad\qquad$ 其中 $\epsilon>0$ 是一个可调的参数，比如在一个分类任务中模型 $f(\cdot;\theta)$ 输出概率分布， $\mathcal{l_s}$ 可以选择为对称KL-散度如：
$\mathcal{l_s}(P,Q) = \mathcal{D}_{KL}(P\rVert Q) + \mathcal{D}_{KL}(Q\rVert P)$
$\qquad\qquad$ 在一个回归任务中，模型 $f(\cdot;\theta)$ 输出一个值， $\mathcal{l_s}$ 可以选择为方差损失如: $\mathcal{l_s}(p,q)=(p-q)^2$

最低0.47元/天解锁文章

11 条评论

优快云-Ada助手 2022.12.06
你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。

xinliu4242 2022.12.02
大佬您好，在作者源码中似乎只看到了Smoothness-Inducing Adversarial Regularization这个点的代码，但是布雷格曼近点优化的代码好像没看到，请问是在源码的哪个文件中呢
- xinliu4242回复Magicapprentice 2023.02.23
  谢谢
- Magicapprentice回复xinliu4242 2022.12.05
  您好，我猜测,这块的代码作者应该没有放到源码中，如果在源码中应该在optim 模块里模型参数更新的位置。另外结合作者在https://github.com/namisan/mt-dnn/blob/master/train.py 文件中的注释应该也能佐证这一点。[code=python] parser.add_argument("--adv_train", action="store_true") # the current release only includes smart perturbation parser.add_argument("--adv_opt", default=0, type=int) parser.add_argument("--adv_norm_level", default=0, type=int) [/code]

Potato_Shy 2021.12.03
想问一下，这个定义的布雷格曼散度ls的计算方法，似乎并不符合布雷格曼散度的计算方式呀

「已注销」 2021.12.02
谢谢你把论文翻译了一遍，再加点观点如何？

Wisley.Wang 2021.04.21
楼主这个源码怎么用在微调上呢？ forward返回的adv_loss, embed.detach().abs().mean(), eff_noise.detach().abs().mean() 要怎么用上去呢
- Wisley.Wang回复Magicapprentice 2021.04.23
  非常感谢！那楼主能问下，关于smart算法的最后一步的参数跟新，代码中是有实现了吗？我还是没找到
- Magicapprentice回复Wisley.Wang 2021.04.23
  是的，对于模型来说只有adv_loss参与了更新，emb 和noise的返回看作者只是将值记录统计并打印到debug info 中了[code=python] debug_info = ' adv loss[%.5f] emb val[%.8f] eff_perturb[%.8f] ' % ( model.adv_loss.avg, model.emb_val.avg, model.eff_perturb.avg ) [/code]
- Wisley.Wang回复Magicapprentice 2021.04.23
  嗯嗯好的谢谢但是我在代码里面好像没看到算法的最后一部，在一个epoch结束后，有beta超参的那部分的实现。它是把返回的adv_loss加到总的loss上做了反向传播。emb和noise返回也不知道有什么作用
- Magicapprentice回复Wisley.Wang 2021.04.22
  可以参考下作者源码里的这个文件https://github.com/namisan/mt-dnn/blob/471f717a25ab744e710591274c3ec098f5f4d0ad/mt_dnn/model.py 里：self.adv_teacher 的调用