[论文笔记]Decoupling Direction and Norm for Efficient Gradient-Based L2 Adversarial Attacks and Defenses

最新推荐文章于 2024-06-18 09:35:57 发布

原创最新推荐文章于 2024-06-18 09:35:57 发布 · 2.1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#对抗攻击 #CVPR Oral #adversarial attack

深度学习/机器学习专栏收录该内容

37 篇文章

订阅专栏

本文提出DDN,一种高效基于梯度的L2对抗性攻击方法，通过对扰动方向和范数解耦，在低L2范数下成功攻击目标网络。在多个数据集上，DDN在untargeted和targeted攻击中表现优秀，迭代次数远少于CW，且在对抗训练后模型性能优于Madry defense。

Decoupling Direction and Norm for Efficient Gradient-Based L2 Adversarial Attacks and Defenses(2019 CVPR Oral)

文章简介：
本文提出了一种有效的基于梯度的攻击方法DDN，通过对图像中添加的对抗性扰动的方向和范数进行解耦，从而在L2范数较低的情况下成功攻击目标网络。在2018 NIPS Adversarial Vision Challenge(black-box)中，本文方法在untargeted attacks中排名第一，在targeted attack和robust models中排名第3。

相关工作的缺点：
- CW是目前最有效的white-box攻击，并且只有较小的L2 noise，但是该方法的缺点是速度慢(用的是line-search)，经常需要迭代上千次。(DDN需要的迭代次数比C&W大约少100倍)
- one-step攻击方法虽然速度快，但是用他们训练不能提高模型在white-box条件下的鲁棒性
Dataset：
- mnist
- cifar-10
- imagenet datasets
特点：
- 使用DDN进行对抗训练后的模型能够outperform Madry defense(state-of-the-art)
- gradient-based attacks that optimize the L2 norm of the distortion
- white-box(本文讨论的范围，但也可以进行black-box attack)、untargeted attack & targeted attack
生成效果：

算法介绍：
- 在算法优化过程中不需要对L2 norm进行惩罚，可以在一定程度上解放在过往方法中对超参数C的选择( $C$ 为L2 norm的系数)，本文是通过将对抗性扰动 $δ\delta$ 投影到原图 $x$ 的 $ϵ−sphere\epsilon-sphere$ 来进行限制。然后L2 norm就修改为了binary decision(如果sample $x_k$ (第k步)不是对抗的，则第k+1步的扰动会增加否则减少)
- 算法中为了解决梯度范数变化较大的问题，作者在进行方向更新前先对其进行归一化
- 当 $m = 1$ 时，为untargeted attack，其目的是增大true label的loss；当 $m = - 1$ 时，为targeted attack，注意到现在的y是target label，所以我们要减小target label的loss。
结果对比：

untargeted attack
- 对于MNIST和CIFAR-10，DDN与C&W和DeepFool性能差不多，当C&W的迭代次数
- 对于ImageNet，DDN只需要迭代300步就能达到100%的成功攻击率，并且有更好的Mean L2 norm。DeepFool虽然Mean L2 norm与DDN比较接近，但成功攻击率未能达到100%。