Improving Transferability of Adversarial Examples with Input Diversity (翻译,侵删)

Improving Transferability of Adversarial Examples with Input Diversity (使用输入多样性改善对抗样本的迁移性)

摘要

尽管CNN在各种视觉任务上都取得了顶尖的表现,但是他们对于对抗样本表现脆弱性—通过先干净图片添加人眼不可察觉的扰动构造。然而,许多对抗攻击只是在黑盒设置的条件下,取得了相对低的成功率,这里攻击者不知道模型的结构和参数。为此目的,我们提出了通过构造多样性输入模式来提高对抗样本的迁移性。不仅仅用原始的图片生成对抗样本,我们的算法在每次的迭代中,引入了对于干净图片的随机变化。在ImageNet上的进一步实验表明了,我们提出的攻击方法可以生成对抗样本可以很好的在不同的网络中迁移,比现有的基线。通过评估我们的方法在顶尖的防御方法和官方的极限来自NIPS2017对抗比赛,这个增强的攻击达到了平均73.0%的成功率,草果了在NIPS比赛的第一名的攻击提交方案6.6%。我们希望我们提出的攻击策略,可以作为评估网络对于对抗样本的鲁棒性和不同方法的有效性的基准。代码:https://github.com/cihangxie/DI-2-FGSM.

1. 介绍

最近卷积网络神经网络的成功呆滞了在各种视觉任务上的表现的改善,包括图像分类,目标检测,语义分割。然而,CNNs对于输入图片的小的扰动表现的非常的脆弱,例如。人类不可察觉的添加的扰动可以导致CNNs预测失败。这些故意构造的图片被称为对抗样本。学习如何产生对抗样本可以帮助我们研究不同模型的鲁棒性并且理解目前训练算法的不足。

已有好几个方法被提出来寻找对抗样本。一般,这些方法可以分为两类根据梯度计算的步数。例如:单步攻击和迭代攻击。一般的地带攻击相比于单步攻击可以获得恒高的成功率在白盒攻击下,攻击者对于网络架构和权重非常的熟悉。然而,如果这些对抗样本在不同的网络下测试(无论是网络架构或者权重,或者所有),例如:黑盒攻击,单步攻击表现的更好。这个权衡是因为,迭代攻击往往对于特定的网络过拟合(例如有很高的白盒成功率)并且因此使得生成的对抗样本很难迁移到其他的网络(例如:有低的黑盒成功率),虽然单步攻击通常对于网络参数欠拟合(例如:有较低的白盒攻击率)因此产生的对抗样本有稍微好的迁移性。观察到这个现象。一个有趣的问题,我们能够产生一个对抗样本同时具有较高的成功率在白盒和黑盒的情况下。

在这篇文章中,我们通过构造多样性输入模式提出改善对抗样本的迁移性。我们的工作受到了数据增强策略的启发,这个策略被证明能够很好的防止网络的过拟合通过一系列保留标签的变换(例如:变换大小,裁剪,和旋转)来训练图片。另一方面,38,12证明了图片变换在特定的情况下防御对抗样本,这表明了对抗样本在不同的变换下的繁华并不是非常的好。这些变换的对抗样本被称为hard example,对于攻击者,可以证明产生更具有迁移性的对抗样本。

我们将提出的输入多样性策略与迭代攻击相结合例如:I-FGSM和MI-FGSM。在每一次迭代中,不限传统的方法,直接最大化损失函数,使用原始输入,我们运用了随机的和不同的变换(例如,随机缩放,随机填充)对于原始图片,和可能性p并且使用这些变换的输入最大化损失函数。注意,这些随机的操作之前是用来抵御对抗样本,然而,我们将他们运用到攻击的过程,来产生更加多样的输入模式。图1显示了一个通过我们的方法生成的对抗样本,与其他的攻击方法在白盒和黑盒的设置下的成功率。

图1:使用不同的攻击的成功率的比较。top-5的置信度。对抗样本使用最大扰动 ϵ = 0.5 \epsilon=0.5 ϵ=0.5。从第一行到第三行。我们画出了top-5的置信度干净图片的分布,FGSM和I-FGSM。第四行显示了提出的输入多样性地带快速梯度符号法( D I 2 − F G S M DI^2-FGSM DI2FGSM),攻击白盒和所有的黑盒都成功了。

我们测试了提出的输入多样性在几个网络下,在白盒和黑盒的设置下,单个模型和多个模型的设置。相比于传统的迭代攻击,ImageNet上的结果(见4.2节选)展示了我们的方法得到了显著的高的成功率对于黑盒攻击模型,并且对于白盒模型维持了相似的成功率。通过评估我们的攻击方法,来之NIPS2017对抗比赛的顶尖的防御方法和官方基线,这个增强攻击达到了平均73.0%的成功率,这比top-1的攻击提交在NIPS比赛上表现的更好,扩大了6.6%。我们希望,我们提出的攻击策略可以作为一个基准对于评估网络对于攻击的鲁棒性和对于不同防御的有效性,在未来。

2. 相关工作

2.1 生成对抗样本

传统的机器学习算法被认为对对抗样本具有脆弱性。最近,Szegedy等人,指出CNNs也对对抗样本具有脆弱性,并且提出范数受限的L-BFGS方法,来找到可靠的对抗样本。由于昂贵的计算代价,Goodfellow等人,提出了快速梯度符号方法来生成对抗样本,通过有效的执行一次单一的梯度。这个方法被Kurakin等人拓展为一个迭代的版本,并且展示了对抗样本可以在物理世界中存在。Dong等人,提出了一个基于动量的迭代方法来增强对抗样本的迁移性。这个迁移性也可以通过攻击一个集成的网络来改善。出了图像分类,对抗样本也存在于目标检测,语义分割,语音识别,深度增强学习,等。不像对抗样本可以被人类识别,Nguyen等人,生成的欺骗图片于自然的图片不同,但是人类很难识别,但是CNNs却分类这些图片以一个很高的置信度。

我们提出的输入多样性和EOT有关。这两个工作在以下这些方面不同(1)我们主要关注与具有挑战的黑盒攻击,也关注白盒攻击。(2)我们的目标是缓解对抗样本的过拟合的问题,于此同时使得对抗样本对于变换具有鲁棒性,没有过拟合的考虑。(3)在每次的迭代攻击中,我们不使用额外的步骤,虽然额外的步骤是核心思想。

2.2 防御对抗样本

相反的,大量的方法最近被提出抵抗对抗眼本的攻击。11,17提出将对抗样本注入到训练的数据中来增加网络的鲁棒性。Tramer等人,指出这个对抗训练的模型依然保持对对抗样本的脆弱性,并且提出了集成对抗训练,增强训练集使用来之其他模型的迁移的扰动i给你,为了进一步改善模型的鲁棒性。38,12利用了随机图片变换在推理时期来扩大对抗影响。Dhillon等人,随机修剪了就过,更具扩大网络的鲁棒性。Prakash等人提出了一个框架,结合像素偏移和软小波去噪来抵抗对抗样本攻击。24,33,29是使用生成模型来净化对抗图片,通过将他们移回到干净图片的分布。

3. 方法

X X X为一张图片, y t r u e y^{true} ytrue为对应的标签,我们使用 θ \theta θ表示网络的参数, L ( X , y t r u e , θ ) L(X, y^{true}, \theta) L(X,ytrue,θ)表示损失,为了生成对抗样本,目标是最大化损失函数 L ( X + r , y t r u e , θ ) L(X + r, y^{true}, \theta) L(X+r,ytrue,θ)。在生成对抗样本的限制下 X a d v = X + r X^{adv} = X + r Xadv=X+r和原始图片相似,对应的预测标签 y a d v ≠ y t r u e y^{adv} \neq y^{true} yadv=ytrue,在这篇文章中,我们使用 L ∞ L\infty L范数测量对抗样本的扰动。例如: ∥ r ∥ ≤ ϵ \parallel{r}\parallel \leq \epsilon rϵ,损失函数被定义为:
L ( X , y t r u e , θ ) = − l y t r u e ⋅ l o g ( s o f t m a x ( L ( X ; θ ) ) ) (1) L(X, y^{true}, \theta) = -l_{y^{true}} \cdot log(softmax(L(X; \theta))) \tag{1} L(X,ytrue,θ)=lytruelog(softmax(L(X;θ)))(1)
l y t r u e l_{y^{true}} lytrue表示one-hot编码的标签 y t r u e y^{true} ytrue L ( X ; θ ) L(X; \theta) L(X;θ)表示逻辑输出,注意所有的基线攻击都在cleverhans库中实现,我们在实验中中直接使用。

3.1 快速梯度符号法家族

在这个节选,我们给出了一个快速梯度符号法家族的概览

快速梯度符号法(FGSM),FGSM是这个攻击家族的第一个成员,通过在损失函数的梯度的方向 ∇ x L ( X , y t r u e ; θ ) \nabla{x}L(X, y^{true}; \theta) xL(X,ytrue;θ)寻找对抗扰动,更新公式如下:
X a d v = X + ϵ ⋅ s i g n ( ∇ x L ( X , y t r u e ; θ ) ) (2) X^{adv} = X + \epsilon \cdot sign(\nabla{x}L(X, y^{true}; \theta)) \tag{2} Xadv=X+ϵsign(xL(X,ytrue;θ))(2)
迭代快速梯度符号法(I-FGSM),Kurakin等人拓展了FGSM到一个迭代的版本,表示如下:
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ & X^{adv}_0 = …

C l i p X ϵ Clip^{\epsilon}_X ClipXϵ表示结果图片被剪裁在 ϵ \epsilon ϵ-ball的原始图片之内。 n n n是迭代次数, α \alpha α是步长大小。

动量迭代快速梯度符号法(MI-FGSM)。MI-FGSM提出了一个集成动量项加入到攻击的过程中,来稳定的更新防线,逃避局部最大值。更新步骤类似于I-FGSM,替换的公式如下:
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ & g_{n+1} = \m…
μ \mu μ是动量项衰减因子, g n g_n gn是第 n n n次的累加的梯度。

3.2. 动机

θ ^ \hat\theta θ^是未知的网络参数,一般,一个强壮的对抗样本因该有一个很高的成功率在白盒和黑盒模型下,例如 L ( X a d v , y t r u e ; θ ) > L ( X , y t r u e , θ ) L(X^{adv}, y^{true}; \theta) > L(X, y^{true}, \theta) L(Xadv,ytrue;θ)>L(X,ytrue,θ)。黑盒攻击,例如: L ( X a d v , y t r u e ; θ ^ ) > L ( X , y t r u e , θ ^ ) L(X^{adv}, y^{true}; \hat\theta) > L(X, y^{true}, \hat\theta) L(Xadv,ytrue;θ^)>L(X,ytrue,θ^)。一方面,传统的单步攻击例如:FGSM往往对于特定的网络参数过拟合,由于不精确的对于损失函数 L ( X , y t r u

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值