论文标题:Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks
论文链接:https://arxiv.org/abs/1904.02884
- 关于对抗攻击:
白盒攻击(white-box attacks):在已经获取机器学习模型内部的所有信息和参数上进行攻击。已知给定模型的梯度信息生成对抗样本,如fast gradient sign method(FGSM),basic iterative method,Carlini & Wagner’s method。
黑盒攻击(black-box attacks):在神经网络结构为黑箱时,仅通过模型的输入和输出,生成对抗样本。
跨模型可转移性(cross-model transferability):对一个模型制作的对抗样本在很大概率下会欺骗其他模型。可转移性使得黑盒攻击(black-box attacks)能够应用于实际,并引发严重的安全问题(自动驾驶、医疗)。
生成的对抗样本与判别区域或白盒模型给定的输入点的梯度高度相关,而其他模型依赖于不同的区域做预测,这使得转移到其他防御模型很困难。
普通模型有相似的attention maps,防御模型会产生不同的attention maps。防御模型的辨别目标类别的识别区域(discriminative regions)与其他正常训练的模型不同,见图1。当用FGSM、BIM等已有模型生成对抗样本,只是对于单一的样本进行优化,因此会与识别区域或白盒模型在被输入数据的攻击点的梯度高度相关。对于另一个有着不同识别区域的黑盒模型,该对抗样本很难保持对抗性。

图1 采用类别激活图(class activation mapping)将三种普通模型以及四种防御模型的attentioin maps 可视化
Fast gradient sign method(FGSM):如图 1‑1,在输入的基础上沿损失函数的梯度方向加入了一定的噪声,使目标模型产生了误判。FGSM可以生成高转移性的对抗样本,但是对于攻击白盒模型,效率不高。
<
本文研究了如何绕过防御机制,实现对抗样本在不同模型间的高效转移。针对白盒攻击和黑盒攻击,提出了翻译不变攻击(Translation-Invariant Attacks)方法,通过计算平移图像的平均梯度来降低对抗样本对特定模型识别区域的依赖,从而增强对抗样本的转移性。这种方法结合了FGSM和BIM等攻击策略,同时引入了动量项和随机输入变换以进一步提升转移性。论文探讨了CNN的平移不变性,并提供了三种核矩阵选择策略,简化了计算过程。
最低0.47元/天 解锁文章
297

被折叠的 条评论
为什么被折叠?



