Boosting Adversarial Attacks with Momentum (翻译，侵删)

最新推荐文章于 2024-12-31 10:49:47 发布

原创

最新推荐文章于 2024-12-31 10:49:47 发布 · 945 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #tensorflow #pytorch #神经网络

Boosting Adversarial Attacks with Momentum
用动量增强对抗攻击

摘要

深度神经网络对于对抗样本是脆弱的，对这些孙发提出了安全的担忧，因为潜在的严重的威胁。对抗样本作为一个重要的代理来评估深度学习模型的鲁棒性，在他们应用之前。然而，大多数存在对抗攻击只能欺骗一个黑盒模型以一个极低的成功率。为了解决这个问题，我们提出了一个更加广的类别，基于动量的迭代算法来增强对抗攻击。通过将动量项集成到攻击的迭代过程中。我们的方法可以稳定更新的方向，导致更具有迁移性的样本。为了进一步改善黑盒攻击的成功率，我们运用动量迭代算法，攻击一个集成的模型，并且表明了对抗训练的模型，有很强的防御能力，也对我们的黑盒攻击表现脆弱性。我们希望所提出的方法可以作为一个基准，对于评估各种深度模型和防御方法的鲁棒性。用这个方法，我们在NIPS 2017 无目标对抗攻击和有目标对抗攻击的比赛中获得了第一。

1. 介绍

深度神经网络（DNNs）对于对抗样本是脆弱的，这些对抗样本是通过添加，小的人类不可察觉的噪声到一个合法的样本上，但是使得一个模型输出攻击期望的不准确的预测。它对生成对抗样本聚集了一个有趣的注意，因为它可以帮助识别模型的脆弱性，在他们发起之前。除此之外，对抗样本也可以促进我们的DNN算法，变的更加的鲁棒，通过提供更加多样的训练数据。

对于所给的模型的架构和参数的了解，许多方法可以成功的生成对抗样本，以白盒的方式，包括基于优化的方法，例如盒受限L-BFGS，单步基于梯度的攻击，例如FGSM，和基于迭代变种的攻击方法。一般的，一个更加严重的问题是对抗样本的迁移性，例如：一个模型上构造的对抗样本，在另一个模型上依然保持对抗性，因此使得黑盒攻击在真实世界上边的可行，并且提出了真实的安全威胁。迁移性的现象，是因为不同的模型学习了相似的决策边界，在一个数据点，是的一个模型构造的对抗样本对其他模型也有效。

然而，现有的攻击方法展示了低的效率，当攻击黑盒模型，特别的对于那些有防御机制的。例如，集成对抗训练可以显著的改善深度神经网络的鲁棒性并且现有的方法不能以黑盒的方式成功攻击他们。这个事实很大取决于在攻击能力和迁移性上的权衡。特别的，基于优化和迭代生成的对抗样本有很差的迁移性，因此使得黑盒攻击没有那么的搞笑。另一方面，单步基于迭代的方法生成更具有迁移性的样本，然而对于白盒模型却有一个低的成功率，使得低于黑盒攻击有效。考虑到实际的黑盒攻击的难度，papernot等人，使用适应性查询来训练一个代理模型来完全的特征化目标模型的特征，并且因此可以将黑盒攻击转变为白盒攻击。然而，它需要完全的预测可行度，这是有目标模型所给的，并且需要大量的查询，特别的对于大规模的数据集，例如：ImageNet。在真实世界上应用这些要求是不切实际的。因此，我们考虑如何有效的攻击一个黑盒模型，同时不知道它的架构和参数，并且进一步不用查询。

在这篇文章中，我们提出了一个更广的版本，基于的梯度的动量迭代的方法，来增强生成的对抗样本的攻击成功率，错了基于梯度的迭代方法，迭代的用梯度扰动输入，来最大化损失函数。基于动量的方法累加了一个动量向量在梯度方向上，在每次迭代中，达到稳定梯度方向和逃避局部最大值的目的，我们证明了通过动量迭代方法生成的对抗样本具有较高的成功率在白盒和黑盒攻击下，所提出的方法减轻了在白盒攻击和迁移性上的权衡，并且作为一个更强的攻击算法，相比于单步攻击和普通的迭代攻击。

为了进一步改善对抗样本的迁移性，我们研究了几个方法来攻击一个集成模型，因为，若一个对抗样本可以欺骗多个模型，它很有可能在其他的模型上依然具有对抗性。我们证明了，通过动量迭代攻击方法，对于多个模型，生成的对抗样本，可以成功的欺骗通过集成对抗训练的鲁棒模型，以黑盒的方式。这篇文章中的发现提起了新的安全问题，对于研究一更加鲁棒的深度学习模型，希望我们的攻击方法可以作为一个基线来评估各种深度旭熙模型和防御方法的鲁棒性。综上，我们做出了如下贡献：

我们引入了一类攻击算法，叫做动量迭代基于梯度的方法，这个方法中，我们对于算是函数的梯度进行了累加在每次迭代中，来稳定优化和逃避局部极大值。
我们研究了几个集成的方法来同时攻击多个模型，通过保留了极高的攻击成功率，证明了较高的迁移性
我们首先证明了通过集成对抗训练的具有很强的鲁棒能力的模型，也对容易受到黑盒攻击。

2. 背景

在这个部分，我们提供了背景知识，并且评估了有关对抗攻击和防御的工作。设分类器 $\in X \rightarrow y \in Y$ ，输出一个标签 $y$ 对于一个输入 $x$ ，对抗攻击的目标是寻找一个样本 $x^\star$ ，在 $x$ 的附近，但是被分类器误分类。特别的，有两个类别的对抗样本—无目标的有u表的。对于正确分类的输入 $x$ ，和标签 $y$ ，例如： $f (x) = y$ 。一个无目标攻击的对抗样本 $x^\star$ ，通过向 $x$ 添加小的噪声，没有改变标签，但是误导分类器将 $f(x^\star) \neq y$ ；有目标的对抗样本目的在于欺骗分类器，通过输出一个特定的标签，例如： $f(x^\star) = y^\star$ ， $y^\star$ 是被攻击者指定的标签，并且 $y^\star \neq y$ 。在大多数的情况下，对抗噪声的无穷范数 $L_p$ 要求比允许的 $\epsilon$ 小，例如 $\parallel{x^\star - x}\parallel_p \leq \epsilon$ ， $p$ 应该为 $\infty$ 。

2.1. 攻击方法

现有的生成对抗样本的方法可以被分为3组。我们这里介绍他们的无目标的版本，有目标的版本可以简单的推导。

One-step gradient-based approaches. 例如 fast gradient sign method(FGSM)，找到一个对抗样本 $x^\star$ ，通过最大化损失函数 $J(x^\star, y)$ ， $J$ 通常是交叉熵损失。FGSM生成的对抗样本符合 $L_\infty$ 范数限制 $\parallel{x^\star - x}\parallel_p \leq \epsilon$ ：
$x^\star = x + \epsilon \cdot sign(\nabla_x J(x, y)) \tag{1}$
$\nabla_x J(x, y)$ 是损失函数的梯度，w.r.t. $x$ 。fast gradient method(FGM)是FGSM的一般化，满足 $L_2$ 范数， $\parallel{x^\star - x}\parallel_2 \leq \epsilon$
$x^\star = x + \epsilon \cdot \frac{\nabla_x J(x, y)}{\parallel{\nabla_x J(x, y)}\parallel_2} \tag{2}$
Iterative methods. 迭代的运用fast gradient多次，用一个小的步长 $\alpha$ .迭代版本的FGSM（I-FGSM）如下：
$x^\star_0 = x, \quad x^\star_{t+1} = x_t + \epsilon \cdot sign(\nabla_x J(x^\star_t, y)) \tag{3}$
为了生成对抗样本满足 $L_\infty$