Adversarial Weight Perturbation Helps Robust Generalization(AWP adversarial train )

原创

已于 2023-04-11 15:26:00 修改 · 1.8k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2022-07-24 12:54:16 首次发布

研究揭示了权重损失景观与对抗训练模型泛化差距的关系，并提出了Adversarial Weight Perturbation (AWP) 算法。AWP通过引入min-max-max优化问题，旨在减小训练集与测试集间的鲁棒性差距。实验表明，通过控制扰动权重的γ值，可以优化损失景观，从而提升模型的测试集鲁棒性。与随机权重扰动相比，AWP显示出了更好的性能。此外，该方法在改进现有SOTA算法如TRADES、MARK等时，也显示出增强的鲁棒性。

主要创新点

与最初的PGD对抗训练相比，AWP的主要创新点在于引入了AWP（Adversarial Weight Perturbation）机制（因为Weight loss landscape是在研究正常训练模型泛化性时常用的手段，作者将其引入对抗训练模型中期望有类似的效果），将PGD的min-max问题推广为min-max-max问题，期望解决roubust generalization gap比较大（即对抗训练产生的模型对训练集的鲁棒性远优于对测试集的鲁棒性，即网络鲁棒性的泛化能力不佳）这个问题。

实验探究Weight loss landscape与robust generalization gap之间的关系

Weight loss landscape的绘制

在这里插入图片描述
第二行，先根据高斯分布随机初始化 $d$ 。对每层的每个filter分别进行初始化，即 $d_{l,j}$ 的方向保持不变，大小变为 $w_{l,j}||_{F}$ (矩阵的F范数跟向量的2范数差不多，欧氏距离)。在d确定之后得到模型 $f_{\omega+\alpha d}$ ,之后基于此模型生成一批对抗样本（9-14行），并计算其平均对抗损失（15行），最后根据不同的 $\alpha$ 值绘制损失图即可（17行）。

在learning processing of vanilla AT中（即探究一个模型）

在这里插入图片描述
实验过程对训练集的攻击是PGD-10（2/255，8/255），对测试集的攻击保持不变，并在100与150个epoch时减小学习率，显然在使用更小的学习率后模型出现过拟合，训练集鲁棒性迅速上升而测试集鲁棒性效果不佳，甚至有所下降。
探究其规律可以发现，在100epoch之前weight loss landscape比较平，之后随着训练，gap越大，landscape越陡峭。

不同对抗训练方式最终的weight loss landscape对比（即探究多个模型）

在这里插入图片描述
显而易见，gap越大，loss weight landscape越大。
其次，观察到AT-ES的gap是最小的，但是训练正确率不是最高的，即gap小一部分原因是未充分训练，作者认为最好应该是train robustness大，gap小。

基于上述结论，作者提出，可以在训练过程中直接引入一个机制去flatten weight loss landscape

正式提出Adversarial Weight Perturbation

首先，要让Weight loss lanscape变小，一个直观的想法就是 $\min\limits_{\omega} [\rho(\omega+v)-\rho(\omega)]$ 即可，原本训练的目的是 $\min\limits_{\omega} \rho(\omega)$ ，那只要 $\min\limits_{\omega} \rho(\omega+v)$