author={Bao Gia Doan and Minhui Xue and Shiqing Ma and Ehsan Abbasnejad and Damith C. Ranasinghe},
一、简介
我们提出了一种针对DNN的新攻击。我们的攻击方法通过探索生成对抗网络(GAN)中空间有界的对抗示例空间和自然输入空间的超集来生成通用自然对抗样本,我们称之为TnTs。我们为攻击DNN生成的TnT是:
1.普遍性和自然性。TnT是通用的,因为具有TnT的任何输入都将欺骗分类器和自然主义,如通过大型队列用户研究所评估的。
2.在针对最先进DNN的有针对性和无针对性攻击中非常有效。在对ImageNet的广泛实验中,ImageNet是一个重要的大规模数据集,包含100万张高分辨率图像,用于许多现实世界计算机视觉任务的预训练模型,我们在将任何输入错误分类为目标类的挑战性攻击设置中实现了超过95%的攻击成功率。
3.鲁棒性。我们观察到高的攻击成功率与TnT的位置无关;即使TnT在角落,即图像背景中。
4.在物理世界中部署。我们进行物理世界部署我们的攻击,以证明在各种现实世界的设置攻击的实用性。
5.具有高度的可推广性。从100个随机样本图像中发现的TnT可有效地误导整个ImageNet验证集(50,000个图像)。此外,我们还演示了跨多个最先进的网络(如VGG-16、WideResNet 50、SqueezeNet、ResNet 18、MnasNet)和跨3个附加任务的有效攻击:人脸识别(PubFig)、场景分类(CIFAR 10)和交通标志识别(GTSRB)。
6.可转移到安装黑盒攻击。我们使用ImageNet分类任务研究攻击的可转移性。我们表明,TnTs是可转移到其他未知的网络架构相同的任务(在黑盒设置的攻击)。
7.在规避对抗补丁攻击的现有对策方面非常有效。我们对可证明的和经验的防御进行评估。
我们的攻击一般化生成物理上可实现的对抗补丁,实现比最先进的攻击更高的攻击成功率。当攻击者不需要自然特征时,我们的攻击导致了一种新的算法,可以生成仅为输入图像大小2%的对抗补丁,具有更高的攻击成功率;与最先进的对抗补丁攻击相比,实现了高达44%的大幅度。
二、相关背景
我们的攻击公式是基于使用生成对抗网络(GAN),在本文中,我们应用了具有梯度惩罚的Wasserstein GAN(WGANGP)[27],因为它已经被证明可以稳定GAN训练过程并提高样本的保真度。
通过从实现的生成器中采样,我们能够获得自然的图像样本。我们将利用GAN的这种能力来合成我们称之为TnT的自然斑块。
三、攻击方法概述
1.攻击模型
我们的攻击者在推理时间进行攻击,即与特洛伊木马攻击相比,攻击者不干预训练过程。因此,攻击者不会留下任何篡改网络的痕迹,使其相对容易部署。
攻击者的目标是(i)利用DNN对TnT的脆弱性来提取TnT实例,并且(ii)具有高攻击成功率(ASR),同时(iii)保持补丁的通用性;挑战是发现自然补丁。
2.假设
我们可以预期存在对抗性补丁,这些补丁是自然的,但具有对抗性效果,可以改变分类器的决策。然而,在所有看起来自然的小图像块的无限空间中搜索是不可行的,因此我们通过从GAN的最新发展中获得灵感,将我们的搜索限制在生成对抗网络(GAN)的流形上,GAN显示出学习生成逼真图像的巨大能力。
3.攻击方法概述
生成TnT的攻击方法。在这里,A是补丁戳过程,ytTarget是攻击者指定的目标类,ysource是地面实况标签,xmax(x max,ytTarget,ysource)是来自分类器f的预测分数与目标以及源标签之间的组合交叉熵损失,并且xmax是来自目标分类器f的反馈。该方法被设计为通过使用梯度反馈遍历生成器的潜在空间来迭代地接近高攻击成功TnTs。
由于GAN被设计为使用生成器从已知的(潜在的)分布映射到真实的图像的分布,我们考虑生成图像的生成器的潜在空间z-作为Gθ(z)-而不是在所有自然外观图像块的无限空间中搜索;即标准高斯分布N(0,1),并且具有更低的维度,其中遍历更容易。通过从下游分类器(分类器)获得反馈,我们可以在梯度反馈之后导航潜在空间,以寻找潜在向量,从该潜在向量可以生成潜在TnT。
重要的是,我们采用的学习算法确定了生成补丁的最佳潜在向量z,潜在的TnT,因为这个潜在空间z可以从简单的潜在分布中捕获自然图像的内在结构。值得注意的是,由于生成器是在自然图像上训练的,因此使用确定性变换(Generator)将潜在空间中的样本映射到看起来自然的图像实例。我们证明了这个过程是一个有效的方法来发现能够欺骗分类器的输入,同时保持补丁的自然主义。我们将此过程称为TnT发生器。有效地,我们的攻击方法利用GAN捕获丰富的自然图像分布的能力来发现输入空间的假设区域。
我们将TnT攻击与其他对抗补丁攻击区分如下:
1)生成的补丁可以看起来很自然,并且看起来比LaVAN和AdvPatch 中的噪声扰动补丁恶意程度更低。
2)不是直接对输入空间施加扰动,导致噪声对抗补丁,我们提出通过间接操纵生成对抗网络的潜在空间z来解决搜索具有对抗效应的自然补丁的问题,该生成对抗网络已经学会接近自然补丁分布。
3)与基于输入依赖对抗补丁的PS-GAN [38]攻击不同,该补丁遮挡了显著特征以实现非目标攻击,我们的攻击是:i)能够进行有针对性和非目标攻击; ii)输入不可知(通用); iii)鲁棒攻击成功在很大程度上对位置不变,即使在图像的角落或背景。
4)我们的攻击方法一般化,以产生小的,具有高攻击成功率的噪声样添加的对抗补丁比现有的最先进的攻击方法高达44%的大幅度。
5)据我们所知,我们的研究是第一个展示对抗性攻击的研究,它具有通用的,物理上自然的和位置独立的补丁,用于图像分类任务中的目标攻击。
四、TNT生成器
1.IV-A训练Generator
GAN的一个优势在于,它们是无监督模型,仅需未标记的数据即可进行训练,这些数据可以低成本获得。在我们的研究中,我们从开源的Google图片【32】中收集了一个随机的、未标记的花卉图像数据集,以构建一个花卉数据集来学习自然花卉分布。我们选择了WGAN-GP损失函数,因为它已被证明能够稳定GAN的训练过程。
2.IV-B转换为TnT生成器
为了实现TnT(在我们的攻击场景中表示一个花形补丁),我们需要在生成的花分布中搜索那些对被攻击网络具有对抗性效果的花。在这里,我们假设GAN已经学习到了自然图像和对抗样本的超集,如图2所示;因此,通过在这个生成的分布中搜索,我们期望找到一种结构化的、自然外观的扰动,而不是随机的噪声扰动。首先,我们形式化TnT的符号表示,其次,我们提出实现这种TnT的方法。考虑以下几点:
- ysource 是给定图像 x的源类别标签。
- ytarget是攻击者指定的目标类别。
- 损失函数是在无目标攻击中,预测值与标签 ℓ(x,ysource) 之间的交叉熵损失;在有目标攻击中,是预测值与目标标签 ℓ(x,ytarget)之间的交叉熵损失。值得注意的是,我们故意省略了网络权重(θ)和其他参数,因为假设它们是固定的,并且在网络训练后不会被更改。
现在更正式地说,攻击者使用一个经过训练的模型 M,该模型预测输入图像 x∈Rw×h×cx 的类别成员概率 pM(y∣x)。我们用 y=pM(x) 表示所有类别的概率向量,用yargmax=M(y=y′∣x)表示对于输入 x 的最高评分类别(即分类器对源类别的预测)。攻击者希望找到一个图像 x′,使得 y′≠ysource 或 y′=ytarget,从而欺骗网络。图像 x′是在原始图像上覆盖一个自然补丁生成的,我们将此过程记为函数 A(x,G(z))。
在我们的 TnT 生成过程中,我们首先从 z∼p(z)中采样一个向量 z∈RN,其中 N=128。这个潜在向量将输入到预训练的生成器中,以生成花形补丁 δ=G(z),其中 G:RN→Rw×h×c。然后,将花形补丁粘贴在图像的右下角,以避免遮挡主要特征,这符合之前工作的意图【34】【49】。随后,在 VI-B 部分,我们还将在九个不同的随机位置评估花形补丁的效果。
补丁(花)的大小可以根据攻击者的需求确定,以实现其目标。基于预定的位置和补丁大小,我们使用 OpenCV 的图像阈值方法【42】来确定图像的二进制掩码 m,其中 mi,j∈{0,1},用于图像的第 i行和第 j 列位置,以去除 δ 的背景。然后将此补丁附加到输入图像上以获得对抗性图像 x′,即:
为了评估 x′ 作为对抗样本的效果,并接收反馈以选择更优的潜在变量,我们将其输入到训练好的神经网络分类器中。将样本 x′输入分类器后,可以获得每个类别的预测分数。然后,计算与目标标签 ytarget和源标签 ysource的损失 ℓ(x′,ytarget) 和 ℓ(x′,ysource)(例如,使用交叉熵)。我们使用额外的损失项 ℓ(x′,ysource),因为它可以加速目标攻击的收敛。
接着,计算该损失对潜在变量 z 的梯度 ∇zℓ(x′,ytarget,ysource)。然后使用梯度下降法更新潜在变量 z,以减少该损失。注意,这一过程不会改变分类器或GAN的参数,只会更新潜在变量 z,以增加攻击成功的可能性。
在生成TnT的过程中,对于一组随机输入,如果有一定比例的 x′能够成功欺骗网络,则认为TnT是普适的。设置这一阈值的目的是提高算法的速度,如果攻击在一个批次中成功,则测试其是否在验证集 Xval 上具有普适性。完整过程如算法1所示。
GAN的一个优势在于,它们是无监督模型,仅需未标记的数据即可进行训练,这些数据可以低成本获得。在我们的研究中,我们从开源的Google图片【32】中收集了一个随机的、未标记的花卉图像数据集,以构建一个花卉数据集来学习自然花卉分布。我们选择了WGAN-GP损失函数,因为它已被证明能够稳定GAN的训练过程。