论文标题:Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks
论文链接:https://arxiv.org/abs/1904.02884
- 关于对抗攻击:
白盒攻击(white-box attacks):在已经获取机器学习模型内部的所有信息和参数上进行攻击。已知给定模型的梯度信息生成对抗样本,如fast gradient sign method(FGSM),basic iterative method,Carlini & Wagner’s method。
黑盒攻击(black-box attacks):在神经网络结构为黑箱时,仅通过模型的输入和输出,生成对抗样本。
跨模型可转移性(cross-model transferability):对一个模型制作的对抗样本在很大概率下会欺骗其他模型。可转移性使得黑盒攻击(black-box attacks)能够应用于实际,并引发严重的安全问题(自动驾驶、医疗)。
生成的对抗样本与判别区域或白盒模型给定的输入点的梯度高度相关,而其他模型依赖于不同的区域做预测,这使得转移到其他防御模型很困难。
普通模型有相似的attention maps,防御模型会产生不同的attention maps。防御模型的辨别目标类别的识别区域(discriminative regions)与其他正常训练的模型不同,见图1。当用FGSM、BIM等已有模型生成对抗样本,只是对于单一的样本进行优化,因此会与识别区域或白盒模型在被输入数据的攻击点的梯度高度相关。对于另一个有着不同识别区域的黑盒模型,该对抗样本很难保持对抗性。
图1 采用类别激活图