JMSA（Jacobian Saliency Map Attack）算法源码解析

原创

于 2023-11-08 19:39:44 发布 · 658 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #python #神经网络

本文介绍了如何利用前向梯度生成对抗样本，不同于传统方法如FGSM和PGD，这种方法考虑的是目标类别标记的预测值梯度。JSMA（JacobianSaliencyMapAttack）通过构建显著图来确定像素对的修改策略，以实现对深度学习模型的有效攻击。

论文链接：https://arxiv.org/abs/1511.07528v1
源码出处：https://github.com/Harry24k/adversarial-attacks-pytorch/tree/master

解析

FGSM、PGD等算法生成的对抗样本的扰动方向都是损失函数的梯度方向（可以参考本人以前的博客），该论文生成的对抗样本的扰动方向是目标类别标记的预测值的梯度方向，作者将这个梯度称为前向梯度（forward derivative）。作者将前向梯度定义为神经网络在训练期间学习的函数 $F$ 的雅可比矩阵（Jacobian matrix），即 $\triangledown F(X)=\dfrac{\partial F(X)}{\partial X}=\begin{bmatrix}\dfrac{\partial F_j(X)}{\partial X_i}\end{bmatrix}$ 其中， $F_j(X)$ 表示模型对于标签 $j$ 的输出值， $X_i$ 表示样本 $X$ 中第 $i$ 个数据。
通过如上的前向梯度，我们可以知道每个像素点对模型分类的结果的影响程度，进而利用前向梯度信息来更新干净样本 $X$ ，生成的对抗样本就能被分类成为指定的类别。
作者引入了显著图的概念，该概念来自于计算机视觉领域，表示不同的输入特征对分类结果的影响程度。若发现某些特征对应分类器中某个特定输出，可通过在输入样本中增强或减弱这些特征来使分类器产生指定输出。

算法步骤

1 计算前向梯度

计算模型类别置信度输出层中的每一个类别置信度对于输入 $X$ 的偏导，该偏导值表示不同位置的像素点对分类结果的影响程度。公式如下： $\triangledown F(X)=\dfrac{\partial F(X)}{\partial X}=\begin{bmatrix}\dfrac{\partial F_j(X)}{\partial X_i}\end{bmatrix}$

2 构建显著图

若是正向扰动，即增加的扰动 $\theta>0$ ，则： $S(X,t)[i]=\left\{ \begin{array}{rcl} 0 && if\ \dfrac{\partial F_t(X)}{\partial X_i}<0\ or\ \sum\limits_{j\ne t}\dfrac{\partial F_j(X)}{\partial X_i}>0\\ \left(\dfrac{\partial F_t(X)}{\partial X_i}\right)\bigg|\sum\limits_{j\ne t}\dfrac{\partial F_j(X)}{\partial X_i}\bigg| && otherwise \end{array} \right.$