DeepFool论文解读

最新推荐文章于 2025-03-07 09:00:00 发布

swpu_jx_1998

最新推荐文章于 2025-03-07 09:00:00 发布

阅读量933

点赞数 1

文章标签：机器学习人工智能深度学习

本文链接：https://blog.youkuaiyun.com/weixin_40872714/article/details/127383155

版权

DeepFool: a simple and accurate method to fool deep neural networks

1.引言

作者首先定义了对抗攻击的范式和模型的鲁棒性。
通常，对与一个给定的模型，能够改变分类器 $\hat{k}(x)$ 的分类结果的最小对抗扰动 $r$ 定义如下
$\Delta(x;\hat{k}):=\min_r\|r\|_2\;\;\text{subject to}\; \hat{k}(k+r) \not=\hat{k}(x)$
其中 $x$ 是图片， $\hat{k}(x)$ 是预测的标签, $\Delta(x;\hat{k})$ 是分类器 $\hat{k}$ 在 $x$ 处的鲁棒性。分类器 $\hat{k}$ 的鲁棒性定义为 $\rho_{adv}(\hat{k})=\mathbb{E}_x\frac{\Delta(x;\hat{k})}{\|x\|_2}$ 。
作者的贡献可以归结为三点：

提出了一种新的计算对抗样本的方法 DeepFool，该方法是基于梯度迭代方法中生成扰动最小的，并且能有较高的攻击准确率。
用对抗样本增加训练数据，显著提高模型对对抗扰动的鲁棒性，该部分贡献对抗训练的前期研究。
分析了 FGSM 算法来验证分类器的鲁棒性的不合理性，并提出该算法会过分的评估分类器的鲁棒性，并定义了什么是样本鲁棒性，什么是模型的鲁棒性。

2.DeepFool 实现 - 二分类

首先定义一个二分类器 $f(x)=w^Tx + b$ , 以及分类超平面 $\mathcal{F} = \{x:w^Tx+b =0\}$ 。对于一个样本 $x_0$ ， $f$ 在 $x_0$ 处的鲁棒性 $\Delta(x_0;f)$ 则是 $x_0$ 到超平面的正交投影距离，定义如下：
$r_*(x_0) :=\argmin \|r\|_2 \;\; \text{subject to} \; sign(f(x_0+r)) \not= sign(f(x_0))\\ =-\frac{f(x_0)}{\|w\|^2_2}w$
其中 $w$ 是超平面的法向量
在这里插入图片描述
如果 $f$ 是一个可微的函数，那么就可以通过迭代的方式求出 $r_*$ ，可以将以上的公式优化为下面的形式

推导过程：
已知 $r_i = -\frac{f(x_i)}{\|w\|^2_2}w$ ，从几何意义上来说，梯度 $\nabla f(x_i) = w$ ,所以有
$r_i = \frac{-f(x_i)}{\|\nabla f(x_i)\|_2^2}\nabla f(x_i)$
又因为 $\|\nabla f(x_i)\|_2^2 = \nabla f(x_i) \cdot \nabla f(x_i)^T$ , 移项就有：
$\nabla f(x_i)^Tr_i + f(x_i) = 0$
通过上面的公式得到二分类求对抗样本的算法如下
在这里插入图片描述

3.DeepFool 实现 - 多分类

首先是多分类器定义如下
$\hat{k}(x) = \argmax_k f_k(x)$
其中 $f_k(x)$ 是分类器对第 $k$ 类的预测结果，定义 $\mathbf{W}^T x +b$ , 那么求多分类的扰动 $r$ 定义如下
$\argmin_r \|r\|_2 \\ s.t. \exists k:w_k^T(x_0+r) +b_k \geq w^T_{\hat{k}(x_0)}(x_0+r) + b_{\hat{k}(x_0)}$

为了更好的理解以上优化形式的含义，自己做了一个图示便于理解。如下图所示，左半部分是干净样本的概率向量的输出，预测的类别为 $\hat{k}$ , 加入对抗扰动后，预测类别变成了 $k$
在这里插入图片描述
从几何上来解释，上述问题对应于 $x_0$ 与凸多面体 $P$ 之间距离的计算， $P$ 可以定义如下
$\bigcap_{k=1}^c\{x:f_{\hat{k}(x_0)}(x) \geq f_k(x)\}$
$x_0$ 位于 $P$ 内一点。
如图所示，绿色直线所包含的区域就是 $P$
在这里插入图片描述
定义 $\hat{l}(x_0)$ 是距离 $P$ 最近的超平面，根据距离公式， $\hat{l}(x_0)$ 可定义如下
$\hat{l}(x_0) = \argmin_{k\not=\hat{k}(x_0)} \frac{\|f_k(x_0)-f_{\hat{k}(x_0)}(x_0)\|}{\|w_k - w_{\hat{k}(x_0)}\|_2}$
那么最小的扰动 $r_*(x_0)$ 就是 $x_0$ 投影到超平面 $\hat{l}(x_0)$ 的距离，即
$r_*(x_0) = \frac{\|f_{\hat{l}(x_0)}(x_0)-f_{\hat{k}(x_0)}(x_0)\|}{\|w_{\hat{l}(x_0)} - w_{\hat{k}(x_0)}\|_2}(w_{\hat{l}(x_0)} - w_{\hat{k}(x_0)})$

对与现实中常用到的分类器往往是非线性的，在这样的非线性的凸区域 $P$ 内，作者选择一个线性的凸区域 $\tilde{P}$ 作为替代，每一次迭代过程中的 $\tilde{P}_i$ 定义如下
$\tilde{P}_i = \bigcap_{k=1}^c \{x:f_k(x_i)-f_{\hat{k}(x_0)}(x_i)+\nabla f_k(x_i)^Tx - \nabla f_{\hat{k}(x_0)}(x_i)^Tx \leq 0\}$
最终，多分类的DeepFool生成对抗样本的算法流程如下：
在这里插入图片描述
以上算法是在二范数下进行计算的，如果要扩展到 $p$ 范数下，只需要修改 10 行和11行公式
$\hat{l} = \argmin \frac{|f^{\prime}_k|}{\|w_k^{\prime}\|_q}\\ r_i = \frac{|f_{\hat{l}}^{\prime}|}{\|w_{\hat{l}}^{\prime}\|_q^q}|w_{\hat{l}}^{\prime}|^{q-1} \odot sign(w_{\hat{l}}^{\prime})$
其中 $\frac{p}{p-1}$