人工智能顶会ICCV2021《On the Robustness of Vision Transformers to Adversarial Examples》论文解读

最新推荐文章于 2025-05-16 09:15:00 发布

原创

最新推荐文章于 2025-05-16 09:15:00 发布 · 1.5k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #神经网络 #机器学习 #python #transformer

论文探讨了视觉变换器ViTs在对抗性攻击中的表现，发现它们在白盒攻击下与CNNs相当，但自注意力GradientAttack(SAGA)展示了ViTs的脆弱性。SAGA利用自注意力优化攻击效率，同时在黑盒攻击下集成模型显示更强鲁棒性。

引言

视觉变换器（Vision Transformers，简称ViTs）在图像分类中的应用具有显著的优势。ViTs通过将图像划分为一系列小块（patches），然后将它们视为一个序列来处理。这种方法使得ViTs能够捕捉到图像的全局特征，而不仅仅是局部特征。ViTs利用自注意力（self-attention）机制来理解图像块之间的关系，这使得模型能够更有效地处理图像中的重要部分。与传统的卷积神经网络（CNNs）相比，ViTs在处理图像分类任务时更能理解和利用图像的整体结构，提供了更好的分类性能。此外，ViTs在处理更大和更复杂的图像数据集时显示出了更好的扩展性和泛化能力。

对抗攻击是一种旨在欺骗机器学习模型的技术。在这种攻击中，攻击者轻微但有意地修改输入数据（如图像），以使机器学习模型做出错误的预测或分类。这些修改通常对人眼来说几乎是不可察觉的，但却能导致模型性能大幅下降。

对于传统的卷积神经网络（CNNs），对抗攻击尤其具有破坏性。CNNs通常在图像识别和分类任务中表现出色，但它们对输入数据的微小变化非常敏感。因此，通过对抗攻击引入的微小变动可以使CNNs做出完全错误的预测。这暴露了CNNs在处理图像时的一个重要弱点，即它们在理解图像整体内容和结构时的脆弱性。这种脆弱性对于安全关键的应用（如自动驾驶车辆的视觉系统）来说是一个重大问题，需要通过改进模型设计和采用更复杂的防御机制来解决。

论文目的和研究重点

这篇论文的主要目的是研究视觉变换器（Vision Transformers，简称ViTs）在对抗性攻击下的鲁棒性。作者们关注的是ViTs在标准白盒和黑盒攻击下的表现、CNNs与ViTs之间对抗性实例的可转移性，以及简单集成防御策略的安全性。通过这些研究，论文旨在深入了解ViTs在面对这些挑战时的性能和安全性，从而推动对抗性机器学习领域的发展。

这篇论文的研究主要集中在三个方面：

白盒攻击下的视觉变换器安全性
- 研究视觉变换器（Vision Transformers，简称ViTs）在白盒攻击条件下是否比传统的卷积神经网络（CNNs）更安全。作者们使用六种标准的白盒对抗性机器学习攻击，攻击视觉变换器、Big Transfer模型和传统CNNs（例如ResNets）。结果显示，在白盒攻击条件下，视觉变换器与其他模型一样容易受到攻击。
视觉变换器与其他模型间对抗性实例的可转移性研究
- 探讨在视觉变换器和其他非变换器模型之间对抗性实例的可转移性。实验涉及CIFAR-10和CIFAR-100的八个模型（包括四个视觉变换器，两个Big Transfer模型和两个ResNets），以及使用七个模型（包括三个视觉变换器，两个Big Transfer模型和两个ResNets）研究ImageNet上的视觉变换器的可转移性。研究发现，视觉变换器和其他非变换器模型间的对抗性实例可转移性出奇地低。
利用可转移性现象提供安全性的分析
- 研究如何利用对抗性实例的可转移性来提高安全性。这一部分分为白盒和黑盒分析。在白盒分析中，作者开发了一种新的白盒攻击方法，称为自注意力混合梯度攻击（Self-Attention blended Gradient Attack，简称SAGA），结果表明无法利用可转移性现象来实现白盒安全性。然而，在黑盒攻击条件下，通过结合视觉变换器和Big Transfer模型的简单集成，可以在不牺牲清洁准确性的情况下实现前所未有的鲁棒性。

Self-Attention Gradient Attack

Self-Attention Gradient Attack (SAGA)是一种专门设计用来同时破坏视觉变换器（Vision Transformers, ViTs）和卷积神经网络（CNNs）的新型白盒攻击。以下是其详细的攻击过程：

攻击动机：SAGA的动机是证明即使是ViTs和Big Transfer Models的简单集成也不能在白盒攻击下提供安全性。例如，假设有一个集成模型由ViT-L-16和BiT-M-152x4组成，通过分析这两种模型的低可转移性，SAGA演示了仅攻击一个模型生成的对抗样本不足以评估集成模型的安全性。
数学描述：SAGA假设攻击者了解集成防御中的模型和训练参数。不同于完全专注于优化单一模型，SAGA旨在同时破坏多个模型。给定一个由视觉变换器集合V和CNNs集合K组成的集成，攻击者的目标是创造一个对抗样本 ( x_{\text{adv}} )，使得所有V和K中的成员都误分类。
对抗样本的迭代计算：对抗样本通过以下公式迭代计算：
$x_{\text{adv}}^{(i+1)} = x_{\text{adv}}^{(i)} + s \times \text{sign}(G_{\text{blend}}(x_{\text{adv}}^{(i)}))$
其中， $x_{\text{adv}}^{(1)} = x$

最低0.47元/天解锁文章