[论文阅读笔记]DeepFool: a simple and accurate method to fool deep neural networks

最新推荐文章于 2025-03-07 09:00:00 发布

原创最新推荐文章于 2025-03-07 09:00:00 发布 · 5.3k 阅读

38 ·

CC 4.0 BY-SA版权

文章标签：

#对抗攻击 #adversary attack #deepfool

深度学习/机器学习专栏收录该内容

37 篇文章

订阅专栏

本文介绍了DeepFool算法，一种用于生成对抗样本的简单而准确的方法。该算法旨在找到最小的输入扰动，使深度神经网络产生误判。文中详细阐述了DeepFool算法的工作原理及其实现细节，并对比了其与FGSM算法的效果。

DeepFool: a simple and accurate method to fool deep neural networks(2016 CVPR)

文章简介：
本文为Adversary Attack方向的一篇经典论文。算法名为DeepFool，其目标是寻求最小的扰动来达到生成对抗样本的目标。下图第2行为DeepFool算法生成的扰动，第3行为FGSM算法生成的扰动。可以看到当生成的target label都为turtle时，DeepFool算法所加入的扰动，明显低于FGSM。DeepFool算法的特点主要为以下几个方面：

这是一种untargeted attak
该算法是通过寻求当前的点在高维空间中离所有非真实类的决策边界中最近的一个，来作为攻击后的label
需要注意的是，该算法是一种贪心算法，并不能保证收敛到(1)中的最优扰动。但是，作者在实践中观察到，该算法产生的扰动非常小，可以认为是最小扰动的很好的近似

Contribute：

提出了一种简单、准确的方法来计算比较不对分类器对对抗扰动的鲁棒性

其中 $∇(x;k^)\nabla (x; \hat{k})$ 为

做了广泛的实验比较从而得出
a) 我们的方法比现有的方法更可靠、更有效地计算了对抗性扰动。
b) 发现用对抗性的例子增加训练数据可以显著增强对对抗性扰动的鲁棒性。
作者证明，使用不精确的方法来计算对抗性扰动，可能导致对鲁棒性的不同结论，有时还会产生误导。因此，作者的方法提供了一个更好的理解这个有趣的现象及其影响因素。

DeepFool for binary classifiers：
$f$ 是一个线性二分类分类器： $f(x)=w^Tx+b$ 。如下图，为了使得扰动达到最小，最小的方向就是垂直于分类面的方向。

因此可以给出一个closed-form formula：

其算法流程为

个人感觉这个算法中 $r_i$ 计算结果可能会偏大以至于无法满足题目中最小扰动的目标？
No！
$\frac{f(x_0)}{||w||_2^2} w \Rightarrow \frac{f(x_0)}{||w||_2} \frac{w}{||w||_2}$
其中
$\frac{f(x_0)}{||w||_2}$
为点到平面 $f$ 的距离公式
另外
$\frac{w}{||w||_2}$
为梯度的单位向量。所以以上就为往梯度方向前进垂直距离大小，即能到达超平面(针对线性超平面而言)。但是事实上神经网络一般都是高度非线性。因此可能未必一次就能到到超平面边界，所以便出现了算法中的while循环。

值得注意的是，算法中为 $∇f(xi)\nabla f(x_i)$ 而非 $w$ 。但是因为 $f(x)=w^Tx+b$ ，所以 $∇f(xi)=w\nabla f(x_i) = w$ 。此外，作者发现上述算法通常会收敛到为zero level set中的一个点，因此在实际操作的过程中，作者会将最终的 $r^\hat{r}$ 乘以一个常系数 $1+η1+\eta$ ，在作者的实验中，他选取 $η=0.02\eta=0.02$