Summary
This paper introduces a stronger adversarial method than the previous state-of-the-art methods, which are successfully defended by distillation. The proposed method aims to generate high-confidence adversarial examples to increase its transferability as well as to achieve indistinguishability from original examples by LpL_pLp regularization.
Content
这篇论文引入了一种新的对抗攻击方法,Carlini and Wagner Attack (CW),该方法比之前提出的攻击方法都要高效且所产生的对抗样本有较小的扰动总量。在此之前,defensively distilled model 很有效地防御 4 种 stat-of-art 攻击方法,但在对抗新攻击方法时,distillation 提供了非常有限的保护 。该攻击方法可公式化为,minimize∥δ∥p+c⋅f(x+δ)subject tox+δ∈[0,1]nminimize \quad\|\boldsymbol{\delta}\|_p+c\sdot f(\boldsymbol{x+\delta}) \quad subject \space to\quad\boldsymbol{x+\delta}\in [0,1]^nminimize∥δ∥p+c⋅f(x+δ)subject tox+δ∈[0,1]n
其中 LpL_pLp norm 共使用了三种形式,L0,L2,L∞L_0, L_2,L_\infinL0,L2,L∞。 δ\boldsymbol{\delta}δ 是对抗扰动,论文采取 δi=12(tanh(ωi)+1)−xi\delta_i=\frac{1}{2}\big(tanh(\omega_i)+1\big)-x_iδi=21(tanh(ωi)+1)−xi。目标函数 fff 有七种可能选择,其中最佳目标函数为 f(x′)=max(max{Z(x′)i:i≠t}−Z(x′)t,−k)f(x')=max\big(max\{Z(x')_i:i\neq t\}-Z(x')_t,-k\big)f(x′)=max(max{Z(x′)i:i=t}−Z(x′)t,−k)参数 kkk 可控制所生成对抗样本的期望的置信度。
接下来,论文对于应用三种不同的距离度量而产生的 CW 方法的三种形式在 MINIST 数据集上进行了对抗样本生成的测试。实验结果表明,这三种形式的新攻击方法产生的对抗样本数字与原数字样本肉眼难以分辨。并且与 JSMA, FGSM, PGD 攻击方法生成的对抗样本进行比较,结果表明论文提出的攻击方法有较小的扰动均值。
最后,论文理论分析了先前的攻击方法被 distilled network 有效防御的原因。L-BFGS, Deepfool, FGSM 和 JSMA-F 是由于 dsitillation策略——使用 softmax(x/T)softmax(x/T)softmax(x/T) 训练而测试时使用 softmax(x/1)softmax(x/1)softmax(x/1) —— 引起的精度问题,而导致目标函数的梯度几乎处处为 0。然后作者测试了 CW 方法,结果表明 CW 产生的对抗样本对 distilled network 的攻击成功率几乎100%,并且 L2,L∞L_2,L_\infinL2,L∞ 下的 CW 方法拥有非常小的扰动均值。作者还通过增大 kkk 参数来提高所生成对抗样本的置信度,并通过实验发现,对抗样本的置信度越高,其可转移性越高,即在 undistilled model 生成的对抗样本成功攻击 distilled model的概率越高。
Stength
- 论文进行了三种不同距离度量的形式的测试,即用实验说明距离度量的选择对于扰动均值有很大的影响。
- 论文有比较完整的实验,既有直接应用攻击方法到防御模型的实验又有对抗样本呢转移性的实验。
- 论文提供了源码。
Weakness
None
Comment
这篇论文不仅介绍一种新的强大的攻击方法而且介绍了很多背景知识,比如介绍了目标函数的七种选择。