Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记
实用黑箱攻击的无数据对抗扰动
摘要
神经网络容易受到对抗性示例的攻击,这些示例是为欺骗预先训练的模型而设计的恶意输入。对抗性示例经常表现出黑匣子攻击的可转移性,这使得为一个模型设计的对抗性示例可以欺骗另一种模型。然而,现有的黑箱攻击方法需要训练数据分布中的样本来提高对抗性示例在不同模型之间的可传递性。由于数据的依赖性,对抗性扰动的欺骗能力仅适用于可访问训练数据的情况。在本文中,我们提出了一种用于制作对抗性干扰的无数据方法,该方法可以欺骗目标模型而无需任何有关训练数据分布的知识。在攻击者无法访问目标模型和训练数据的黑盒攻击场景的实际设置中,我们的方法在目标模型上实现了较高的欺骗率,并且胜过其他通用的对抗性摄动方法。我们的方法从经验上表明,即使攻击者无法访问训练数据,当前的深度学习模型仍然处于危险之中。
1 介绍
近年来,深度学习模型证明了在各种机器学习任务上的出色表现[2,5,6]。然而,最近的研究表明,深度神经网络极易受到对抗性干扰的影响[4,16]。对抗性例子是为欺骗目标模型而制作的细微,不易察觉的扰动。对于深度神经网络的对抗性示例缺乏鲁棒性的固有弱点带来了安全问题,尤其是对于需要强大可靠性的对安全敏感的应用程序而言[10]。
了解给定模型的结构和参数后,manyarXiv:2003.01295v1 [cs.CV] 2020年3月3日 这些方法可以成功地以白盒方式生成对抗性示例[16,4]。更严重的问题是,对抗性示例可以跨不同的模型传递,这被称为黑匣子攻击[4]。这种可传递性允许在不了解目标模型的结构和参数的情况下进行对抗性攻击。现有的黑匣子攻击方法着眼于假设攻击者可以获得训练目标模型的训练数据[3,4,7],从而提高了对抗性示例在不同模型之间的可传递性。攻击者首先在相同的训练数据上训练替代模型,然后以白盒方式生成对抗性示例。由于不同的模型在相同的训练集上学习相似的决策边界,因此为替代模型设计的扰动可以使目标模型变得愚蠢[4,7]
但是,在实践中,攻击者几乎无法获取目标模型的训练数据,即使是类别数量也是如此。例如,Google Cloud VisionAPI2(GCV)仅输出许多顶级类别的分数。在这种现实的黑盒设置中,大多数现有的黑盒攻击方法都无法应用。
在本文中,我们提出了一种无数据的方法来制作对抗性的扰动,以解决上述问题。我们的方法是制作无数据扰动,该扰动可以欺骗目标模型而无需任何有关数据分布的知识(例如类别数,数据类型等)。我们利用这样一种性质,从不同模型中提取的特征通常是相似的,因为大多数模型是根据常见的预训练模型权重进行微调的[8]。因此,我们在微调模型和预训练模型之间建立了映射关系。与其优化目标以减少预测标签的得分[4,3],不如说是建议学习可能干扰内部表示的对抗性扰动。我们提出的攻击方法将预训练模型的逻辑输出视为提取的内部表示,并迭代地最大化干净图像与其在此表示空间中测得的对抗示例之间的差异。由于映射关系的关系,内部模型中的预训练模型和微调模型相似,而对抗性实例将很可能误导目标模型。
我们在两个公共数据集(CIFAR-10 [9]和Caltech-101 [11])上评估了该方法,并在一个私有数据集上使用了各种模型,包括最新的分类器(例如ResNet [14],DenseNet [6])。等)。实验结果表明,在现实世界的黑匣子设置下,我们的方法可以实现极高的攻击成功率。在这种黑盒攻击场景的实际设置中,由于它们是图像不可知的方法,因此只能应用通用的对抗性摄动方法。与通用对抗性扰动(UAP)[12]和可推广的无数据通用对抗性扰动(GD-UAP)[13]相比,该方法具有以下优点。首先,我们的方法优于UAP和GD-UAP 8.05%和6.00%。其次,在制作图像不可知的扰动时,UAP需要大量训练样本才能收敛,并且GD-UAP还需要知道训练数据的分布以实现更好的性能。相反,我们的方法在不知道数据分布的情况下产生对抗性的扰动。三,建议方法 不需要培训阶段。可以通过单次反向传播获得扰动,而UAP和GD-UAP需要训练通用扰动,直到收敛为止。
2 相关工作
白盒攻击 借助给定模型的结构和参数的知识,许多方法都可以白盒方式成功生成对抗性示例。大多数白盒算法都基于损失函数相对于输入的梯度生成对抗性示例。塞格德耶塔尔[16]首先通过分析深度神经网络的不稳定性介绍对抗性示例的生成。 Goodfellowet