[论文阅读笔记]Adversarial Transformation Networks: Learning to Generate Adversarial Examples

最新推荐文章于 2022-04-08 12:48:44 发布

原创最新推荐文章于 2022-04-08 12:48:44 发布 · 3.1k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#对抗攻击 #Adversary Attack

深度学习/机器学习专栏收录该内容

37 篇文章

订阅专栏

提出一种新的对抗样本生成方法——Adversarial Transformation Networks (ATNs)，通过训练深度网络将原图转化为对抗样本，优化目标旨在最小化图像失真度并提高攻击成功率。

Adversarial Transformation Networks: Learning to Generate Adversarial Examples

在现有的许多方法中，利用梯度信息进行攻击的方法占绝大多数，本文另辟蹊径，提出了另一种方法：训练一个深度网络，将原图作为输入，输出为对抗样本。

其优化目标为:
$\mathop{\arg\min}\limits_{\theta} \sum_{X_i \in \chi} {\beta L_{\chi}(g_{f,\theta}(X_i),X_i)+L_{Y}(f(g_{f,\theta}(X_i)),f(X_i))}$
其中 $f (X)$ 是训练好用于分类的网络，也就是我们要攻击的网络。 $gf,θ(X)g_{f,\theta}(X)$ 就是我们需要产生的深度网络，输入原图像 $X$ ，输出对抗图像 $X^{'}$
$g_{f,\theta}(X): X \in \chi \rightarrow X'$
$LχL_{\chi}$ 是一个损失函数，文中为 $L_2 \ Loss$ , $β\beta$ 是比例系数， $L_{Y,t}(y', y)$ 定义为
$L_{Y,t} = L_2(y', r(y, t))$
其中r(y,t) 是reranking公式，其表达式为

其作用就是把输出的每一类的得分进行修改，对于我们想要网络误判我们的对抗样本为某个类 $t$ ，就把其在原网络中的得分乘以一个倍数，且 $α>1\alpha > 1$ ，而其他类的得分保持不变。因此该目标其实是想达到一个目的，以MNIST作为假设，也就是若我们初始的每个分类的得分按从大到小排序为[3,8,5,0,4,1,9,7,6,2]，在我们攻击后期待结果假设为7的话，则每个分类的得分按从大到小排序则为[7,3,8,5,0,4,1,9,6,2]，即保持其他类别的分类置信度大小顺序不变，只把攻击的目标类置信度提高到最大。这么做的好处在于，在一定程度上另对抗样本更接近原样本，因为Top-2的预测结果是真实标签。

本文采用了2种生成方法

对于优化目标中 $β\beta$ 的选择，可以发现， $β\beta$ 越小，图像失真度就会越大，如下图

但是，针对某个想要攻击的Model而训练出来的ATNs产生的对抗样本不具有普遍性，即针对想要攻击的Model其攻击成功概率比较高，而其他模型则未必.比如下面的 $Classifier_p$ 与 $Classifier_{a0}$ 这两个网络架构甚至是完全一样的，但攻击效果却天差地别。但是我们可以发现第二行，即在输出的置信度中排第2的的准确率却非常高且稳定，这说明我们的ATNs成功地把输出的置信度中，原本排第1的(真实类别)，成功排到了第2，即图像变化比较细微，没有大规模的改变。
[NOTE]:conditional表示在攻击成功的前提下，TOP-2是真实标签的概率；unconditional则无攻击成功的约束

于是作者考虑在攻击时，同时选择多个Model进行攻击，训练方式与之前大致相同，只是在此时 $L_Y$ 需要同时对多个Model分别进行计算，再最小化。其结果如下

可以发现，攻击训练时包括的模型时，其攻击成功概率大大提升，且还增加了对其他未包括的模型的攻击泛化能力。因此，如果在训练时加入大量的模型进行攻击，其产生的对抗样本的迁移能力是有很大的概率得到提升的

以上都是黑盒攻击，接下来考虑白盒攻击

对于白盒攻击，我们的ATN需要额外获得的信息为