目录
主要创新点
与最初的PGD对抗训练相比,AWP的主要创新点在于引入了AWP(Adversarial Weight Perturbation)机制(因为Weight loss landscape是在研究正常训练模型泛化性时常用的手段,作者将其引入对抗训练模型中期望有类似的效果),将PGD的min-max问题推广为min-max-max问题,期望解决roubust generalization gap比较大(即对抗训练产生的模型对训练集的鲁棒性远优于对测试集的鲁棒性,即网络鲁棒性的泛化能力不佳)这个问题。
实验探究Weight loss landscape与robust generalization gap之间的关系
Weight loss landscape的绘制

第二行,先根据高斯分布随机初始化 d d d。对每层的每个filter分别进行初始化,即 d l , j d_{l,j} dl,j的方向保持不变,大小变为 ∣ ∣ w l , j ∣ ∣ F ||w_{l,j}||_{F} ∣∣wl,j∣∣F(矩阵的F范数跟向量的2范数差不多,欧氏距离)。在d确定之后得到模型 f ω + α d f_{\omega+\alpha d} fω+αd,之后基于此模型生成一批对抗样本(9-14行),并计算其平均对抗损失(15行),最后根据不同的 α \alpha α值绘制损失图即可(17行)。
在learning processing of vanilla AT中(即探究一个模型)

实验过程对训练集的攻击是PGD-10(2/255,8/255),对测试集的攻击保持不变,并在100与150个epoch时减小学习率,显然在使用更小的学习率后模型出现过拟合,训练集鲁棒性迅速上升而测试集鲁棒性效果不佳,甚至有所下降。
探究其规律可以发现,在100epoch之前weight loss landscape比较平,之后随着训练,gap越大,landscape越陡峭。
不同对抗训练方式最终的weight loss landscape对比(即探究多个模型)

显而易见,gap越大,loss weight landscape越大。
其次,观察到AT-ES的gap是最小的,但是训练正确率不是最高的,即gap小一部分原因是未充分训练,作者认为最好应该是train robustness大,gap小。
基于上述结论,作者提出,可以在训练过程中直接引入一个机制去flatten weight loss landscape
正式提出Adversarial Weight Perturbation
首先,要让Weight loss lanscape变小,一个直观的想法就是 min ω [ ρ ( ω + v ) − ρ ( ω ) ] \min\limits_{\omega} [\rho(\omega+v)-\rho(\omega)] ωmin[ρ(ω+v)−ρ(ω)]即可,原本训练的目的是 min ω ρ ( ω ) \min\limits_{\omega} \rho(\omega) ωminρ(ω),那只要 min ω ρ ( ω + v ) \min\limits_{\omega} \rho(\omega+v) ωminρ(ω

研究揭示了权重损失景观与对抗训练模型泛化差距的关系,并提出了Adversarial Weight Perturbation (AWP) 算法。AWP通过引入min-max-max优化问题,旨在减小训练集与测试集间的鲁棒性差距。实验表明,通过控制扰动权重的γ值,可以优化损失景观,从而提升模型的测试集鲁棒性。与随机权重扰动相比,AWP显示出了更好的性能。此外,该方法在改进现有SOTA算法如TRADES、MARK等时,也显示出增强的鲁棒性。
最低0.47元/天 解锁文章
1340

被折叠的 条评论
为什么被折叠?



