Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks (翻译,侵删)

Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks
利用平移不变攻击规避针对迁移性对抗样本的防御

摘要

深度神经网络对对抗样本具有脆弱性,通过添加不可察觉的扰动误导分类器。一个有趣的性质是他们的好的迁移性,是的在现实世界中很容易的进行黑盒攻击。由于对抗攻击的威胁,很多的方法被提出来改善鲁棒性。几个顶尖的防御被证明可以对于迁移样本样本具有鲁棒性。在这篇文章中,我们提出了平移不变性攻击方法来生成更具有迁移性的对抗样本,来攻击防御模型。通过在一个集成的变换的图像上,优化扰动,生成的对抗样本对于白盒模型不敏感,具有更好的迁移性。为了改善攻击的有效性,我们呢进一步证明了我们的方法可以通过涉及没有变换的图片在一个预训练的模型上的梯度。我们的方法可以一般性的适合用于任何的基于梯度的攻击方法。进一步的ImageNet上的实验,验证了所提出的方法的有效性。我们的最好的攻击欺骗了8个顶尖的防御在平均82%的承诺功率上,基于只是迁移的,证明了当前防御技术的不安全。

1. 介绍

尽管巨大的成功,深度神经网络被证明对于对抗样本有很高的脆弱性。这些恶意生成的对抗样本和合法的输入是区分不开来的,通过添加小的扰动,但是却使得深度模型却做出了没合理的预测,即使是在物理世界中,已经引起了在安全敏感的应用中的担忧,例如,自动驾驶,医疗保健和金融。

统计深度神经网络越来越引起关注,因为生成的对抗样本可以作为一个重要的代理来评估不同模型的鲁棒性和改善鲁棒性。几个方法已经被提出来生成对抗样本,用所给模型的梯度信息,例如快速梯度符号法,基本迭代法,CW方法,这些作为白盒攻击。更多的是,对抗样本有跨模型的迁移性,例如,在一个模型上构造的对抗样本可以欺骗一个不同的模型以一个很高的置信度。迁移性使得实践黑盒攻击在真实事件中的应用并且包含了严重的安全威胁。

对抗样本的威胁激励了在建立鲁棒模型或者来防御对抗攻击的进一步研究。这些研究包括使用对抗样本训练,图像降噪和变换,理论证明的防御,和其他等等。尽管没有证明的防御证明可以对通用的攻击防御,他们通过引起梯度模糊来实现,这可以被新的攻击轻易的规避。然而,一些防御生成可以抵制迁移性对抗样本,很难通过黑盒攻击来躲避他们。

防御模型的杜雨迁移对抗样本的抵抗,很大程度上是因为,防御做出的预测,基于不同的决策区域,相比常规训练的模型。例如,我们证明了几个常规训练的模型和防御模型见图2.来表示他们预测的决策边界。可以看出常规训练的模型有相似的注意力图,然而防御包含了不同的注意力图。一个相似的观察也可以发现,防御模型的梯度对于输入空间,和人类感知一致。尽管这些常规训练的模型似乎噪声哼多。防御的这个现象,可能是在不同的数据分布下训练引起的,或者在分类之前的凸显变换。对于基于迁移性的黑盒攻击,一个对抗样本通常通过一个单个输入生成的,来攻击一个白盒模型。所以生成的对抗样本被高度的使用了决策区域修正,或者在给定输入点的白盒模型的梯度,使得很难迁移到其他的防御模型,这些防御模型依赖不同的决策区域来预测。因此,对抗样本的迁移性被很大程度上削弱了,对于这些防御模型。

为了放大在模型之间的不同的决策区域的影响,规避迁移性对抗样本的防御,我们提出了一个 平移不变性攻击方法。实际上,我们对于一组有合法的图片和它的变换的版本的图片,来生成一个对抗样本。我们希望出来的对抗样本对于被攻击的白盒模型的决策区域变的不那么敏感,并且有一个更高的迁移性来欺骗另一个具有防御机制的黑盒模型。然而,为了生成这样的一个对抗样本,我们需要计算一组图片中所有图片的梯度,这带来了更多的算力。为了改善我们攻击的效率,我们进一步证明了我们的方法可以通过涉及一个在预训练模型上在一个温和的假设上,没有变换的图片的梯度。通过集合提出的方法到任何基于梯度的攻击方法(例如:快速梯度符号法),我们获得了更多的迁移性的对抗样本,并且相似的计算复杂度。

在ImageNet上的进一步的实验证明了所提出的输入不变性攻击方法,有助于改善黑盒攻击的成功率以很大的优势,来攻击防御模型。我们最好的攻击达到了平均82%,在规避8个顶尖的防御模型,只是基于迁移性的,因此证明了单签防御模型的不安全性。

2. 相关工作

对抗样本. 深度神经网络被证明对于对抗样本具脆弱性,首先是在视觉领域。之后几个方法被提出来生成对看过样本,以高的成功率和最小的扰动大小为目标。他们也存在在物理世界。尽管对抗样本最近出现在许多其他的领域,我们在这篇文章中关注图像分类的任务。

黑盒攻击. 黑盒攻击这对于模型参数或者梯度是不知道的。对抗样本的迁移性可以被用来进行黑盒攻击。几个方法已经提出来改啥 迁移性,使得更具有力量的黑盒攻击。除了基于迁移性的黑盒攻击,有其他的工作来试试黑盒攻击基于自适应查询。例如,Papernot等人是使用查询来蒸馏目标模型的知识,并且训练一个代理模型。他们因此可以将黑盒攻击转变为白盒攻击。最近的方法是哟哦能够查询来评估黑盒模型梯度和决策边界来生成对抗样本。然而,这些方法通常需要大量的插叙,在现实世界中是不实际的。这篇文章中,我们诉诸基于迁移的黑盒攻击。

攻击一组样本. 一个对抗扰动可以通过一组合法的样本来生成。在22,通用的对抗扰动通过整个数据分布来生成,这欺骗了模型在多数的自然的图片上。在2,对抗扰动在一个变化的分布上优化,这和我们的方法类似。主要的的不同在与三点。第一,我们想要生成迁移对抗样本攻击防御模型,而在2的作者提出在物理世界中合成对抗样本。第二,我们只是使用平移操作,他们收纳柜了一系列的变换操作,例如旋转,平移,添加噪声,等等。第三,我们研究了一个算法对于优化那些只需要计算梯度的对于没有平移的图片,而他们计算一个批次的图片的梯度通过抽样。

防御对抗攻击. 许多的方法已经被提出来增强深度学习模型的鲁棒性。除了直接使得模型产生正确的分类对于对抗样本,一些其他的方法相反尝试检测他们。然而,许多没有证实的防御证明了通过模糊梯度的鲁棒性,这可以被新的攻击所规避。尽管这些防御在白盒设置下没有鲁棒性,他们中的一些经验上证明了在黑盒设置下可以抵制迁移的对抗样本。在这篇文章中,我们关注生成更具有迁移性的对抗样本来攻击这些防御。

3 方法

在这个部分,我们提供了详细的关于我们方法的描述。设 x r e a l x^{real} xreal为一个真实的样本, y y y表示对应的标签。考虑一个分类器 f ( x ) : x → y f(x): x \rightarrow y f(x):xy,输出一个标签作为输入的预测,我们想要生成一个对抗样本 x a d v x^{adv} xadv,在视觉上和 x r e a l x^{real} xreal区分不开来,但是可以欺骗分类器,例如: f ( x a d v ) ≠ y f(x^{adv}) \neq y f(xadv)=y。在多数情况下, L ∞ L_\infty L范数的对抗扰动需要小于一个阈值 ϵ \epsilon ϵ,因为 ∥ x a d v − x r e a l ∥ p ≤ ϵ \parallel{x^{adv} - x^{real}}\parallel_p \leq \epsilon xadvxrealpϵ。在这篇文中,我们使用 L ∞ L_\infty L范数作为测量的方法。对于对抗样本生成,目标是最大化分类器的损失函数 J ( x a d v , y ) J(x^{adv}, y) J(xadv,y) J J J通常是交叉熵损失。所有受限的优化问题如下:
arg max ⁡ x a d v J ( x a d v , y ) , s . t . ∥ x a d v − x r e a l ∥ ∞ ≤ ϵ (1) \underset{x^adv}{\operatorname{arg\,max}}J(x^{adv, y}), \quad s.t. \parallel{x^{adv} - x^{real}}\parallel_\infty \leq \epsilon \tag{1} xadvargmaxJ(xadv,y),s.t.xadvxrealϵ(1)
为了解决这个优化问题,对应输入的损失函数的梯度,需要被结算,命名为白盒攻击。然而,在一些情况下,我们不能接触到分类器的梯度,这里我们需要以黑盒的方法来实施攻击。我们求助于迁移性对抗样本,通过一个不同的白盒分类器来生成,但是对于黑盒攻击具有较高的迁移性。

3.1 基于梯度的对抗攻击方法

几个方法被提出来解决公式1中的优化问题,我们在这个部分给出一个简要的介绍。

Fast Gradient Sign Method(FGSM). 生成一个对抗样本 x a d v x^{adv} xadv,通过线性化在输入空间上的损失函数,并且实施一步更新:
x a d v = x r e a l + ϵ ⋅ s i g n ( ∇ x J ( x r e a l , y ) ) (2) x^{adv} = x^real + \epsilon \cdot sign(\nabla{x}{J(x^{real}, y)}) \tag{2} xadv=xreal+ϵsign(xJ(xreal,y))(2)
∇ x J \nabla{x}{J} xJ是损失函数对应输入 x x x的梯度。 s i g n ( ⋅ ) sign(\cdot) sign()是符号函数,使得扰动在 L ∞ L_\infty L范数的范围内。FGSM可以生成更具有迁移性的对抗样本,但是对于攻击白盒攻击模型,同行不是那么足够的有效。

Basic Iterative Method(BIM). 拓展了FGSM通过迭代的运用梯度更新多次,使用一个小的步长 α \alpha α,解释如下:
x t + 1 a d v = x t a d v + α ∗ s i g n ( ∇ x J ( x t a d v , y ) ) (3) x^{adv}_{t+1} = x^{adv}_t + \alpha * sign(\nabla{x}{J(x^{adv}_t, y)}) \tag{3} xt+1adv=xtadv+αsign(xJ(xtadv,y))(3)
x 0 a d v = x r e a l x^{adv}_0 = x^{real} x0adv=xreal。为了限制生成的对抗样本的在 x r e a l x^{real} xreal ϵ − \epsilon- ϵball上,我们在每次更新后裁剪了 x t a d v x^{adv}_t xtadv, 后者设置 α = ϵ T \alpha = \frac{\epsilon}{T}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值