[论文阅读笔记]Trust Region Based Adversarial Attack on Neural Networks_trust region basedadversarial attackon neural netw-优快云博客

本文链接：https://blog.youkuaiyun.com/Invokar/article/details/96869889

提出一种新的基于信赖域优化的对抗样本生成方法，该方法能够有效减少扰动大小并提高攻击效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Trust Region Based Adversarial Attack on Neural Networks(2019 CVPR)

文章简介：

Method: 本文主要采用Trust Region(信赖域) 优化算法, 该方法在处理非凸优化问题时是非常有用的。
Dataset: Cifar-10、ImageNet
Compared Algorithm: DeepFool、I-FGSM、Carlini-Wagner(CW)
扰动大小的评价指标:
$\rho_p = \frac{||\Delta x||_p}{||x||_p}$
两种攻击方法

- 选择最好攻击的类别进行攻击

$\,\,\,\,\,best\,class\,attack\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\underset{j}{\arg \min} \frac{z_t - z_j}{||\nabla_x(z_t-z_j)||}\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,$

- 选择最难攻击的类别进行攻击

$\,\,\,\,\,hardest\,class\,attack\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\underset{j}{\arg \min} \frac{z_t - z_j}{||\nabla_x(z_t-z_j)||}\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,$

性能对比
- 相比于DeepFool，本文的方法需要的扰动更小(up to 3.9x)
- 达到与CW方法相同的攻击效果时，本文所花费的时间更短(up to 37.5x)

Contributions：

将对抗攻击问题转化为一个基于TR优化问题，并且在容易实施的同时还能比现有的方法更加高效(扰动小、速度快)
TR-based攻击方法可以在每一轮迭代的过程中自适应地选择扰动量级，从而移除了费时费力的参数调优工作
我们的方法可以很容易地推广到二阶TR攻击。

Limitations：

简单地推广到二阶方法需要计算Hessian matvec backpropogation，计算开销非常大
二阶方法相比于一阶方法提升有限
如果不考虑攻击的性能，DeepFool比我们的方法更快(当然我们的方法攻击效果更好扰动更小)

Trust Region Method：

首先假设神经网络函数为 $f$ ，将其在其领域内泰勒展开
$f(x_k+\Delta x)=f_k+g_k^T\Delta x+\frac{1}{2}\Delta x^T\nabla^2f(x_k+\Delta x)\Delta x$
其中 $fk=f(xk),  gk=∇f(xk)f_k=f(x_k), \,\,g_k=\nabla f(x_k)$
然后利用 $B_k$ 去逼近Hessian矩阵(个人认为这个逼近的意思应该为近似表达，这样可以减轻点计算开销)
$m_k(\Delta x) = f_k + g_k^T \Delta x+ \frac{1}{2}\Delta x^T B_k \Delta x$
在每一步迭代迭代过程，都会求解下述子问题
$\underset{p \in R^h}{\min} m_k(\Delta x) = f_k+g_k^T\Delta x + \frac{1}{2}\Delta x^T B_k \Delta x$
做完铺垫，引出本文的方法，下图中<>代表点积。

算法流程如下图：

对于DeepFool而言，其解决问题的方法是通过线性放射变换来估计决策边界。对于这样一个决策边界，只需计算当前点处的梯度，就可以分析计算扰动量。然而，对于神经网络来说，这种近似可能非常不准确，也就是说，它可能导致对沿次优方向的扰动的过高/过低估计。 因为最小方向与决策边界正交，由于决策边界是非线性的，不能通过简单的仿射变换来计算。

TR方法的主要思想是迭代地选择可信半径 $ϵ\epsilon$ ，以找到该区域内的对抗扰动，使不正确类的概率达到最大值：

通过计算比率，如果 $ρ\rho$ 比较接近于1，说明这一步已经到信赖域边缘了，并且步子有点小，可以尝试扩大信赖域半径
通过计算比率，如果 $ρ\rho$ 比较接近于0，说明这一步迈得太大了，可以尝试缩小信赖域半径

此外如果仔细观察，可以发现Algorithm 1中红框部分是错误的？虽然我不太清楚到底是不是我搞错了，但如果把括号去掉的话可以发现分子是为0的？

Code：

代码中 $ρ\rho$ 表达式中分子部分为
$ori\_{difff} - adv\_{diff}$
其中
$ori\_diff = Z[range(n), true\_ind] - Z[range(n), target\_ind]$
$adv\_diff = Z_{adv}[range(n), true\_ind] - Z[range(n), target\_ind]$
代码中 $ρ\rho$ 表达式中分母部分为
$\epsilon\,\,\,\,\,\,\,\,\,\,\, default=0.001$