Improving the Transferability of Adversarial Examples with Resized-Diverse-Inputs, Diversity-Ensemble and Region Fitting
本文的主要贡献在于提出了一种包含调整大小的多样输入(RDIM)、多样集成(DEM)和区域拟合的三阶段流程来生成可迁移的对抗样本,首次探索了攻击方法(如DIM和TIM)之间的内部关系,发现多样输入梯度的条纹可缓解TIM导致的梯度信息损失,基于此提出RDIM能提升黑盒防御攻击成功率,DEM可生成多尺度梯度进一步提升成功率,区域拟合可加速寻找判别区域,最终最佳攻击方法RF - DE - TIM平均成功率达93%,高于现有基于梯度的攻击方法。
摘要-Abstract
We introduce a three stage pipeline: resized-diverse-inputs (RDIM), diversity-ensemble (DEM) and region fitting, that work together to generate transferable adversarial examples. We first explore the internal relationship between existing attacks, and propose RDIM that is capable of exploiting this relationship. Then we propose DEM, the multiscale version of RDIM, to generate multi-scale gradients. After the first two steps we transform value fitting into region fitting across iterations. RDIM and region fitting do not require extra running time and these three steps can be well integrated into other attacks. Our best attack fools six black-box defenses with a 93% success rate on average, which is higher than the state-of-the-art gradient-based attacks. Besides, we rethink existing attacks rather than simply stacking new methods on the old ones to get better performance. It is expected that our findings will serve as the beginning of exploring the internal relationship between attack methods.
我们引入了一个三阶段流程:调整大小的多样输入(RDIM)、多样集成(DEM)和区域拟合,它们共同作用以生成可迁移的对抗样本。 我们首先探索了现有攻击方法之间的内部关系,并提出了能够利用这种关系的RDIM。然后我们提出DEM,即RDIM的多尺度版本,用于生成多尺度梯度。在前两个步骤之后,我们将逐次迭代的值拟合转换为区域拟合。RDIM和区域拟合不需要额外的运行时间,并且这三个步骤可以很好地集成到其他攻击方法中。我们最佳的攻击方法平均能以93%的成功率欺骗六种黑盒防御,这高于最先进的基于梯度的攻击方法。此外,我们重新思考了现有攻击方法,而不是简单地将新方法堆叠在旧方法上以获得更好的性能。预计我们的发现将成为探索攻击方法之间内部关系的开端。
引言-Introduction
- 研究背景
- 对抗样本对DNNs的威胁:近期研究表明,深度神经网络(DNNs)易受对抗样本攻击,这些精心构造的扰动输入与原始图像几乎无差别,但能使DNNs误分类。例如,在图像分类任务中,对原始图像添加微小扰动后,DNNs可能给出错误的分类结果。
- 对抗样本的可转移性及影响:对抗样本的可转移性是一个更严重且复杂的安全问题,即由一个给定DNN生成的对抗样本可误导其他未知DNN,其威胁甚至延伸到物理世界,这促使了对安全敏感应用的大量研究,涵盖了多种防御方法,如对抗训练、输入去噪、输入变换、理论认证防御等。虽然对抗样本对实际部署构成安全威胁,但也有助于在实际应用前识别DNNs的漏洞。
图1. 针对3个黑盒模型的扰动以及对抗样本及其预测置信度得分情况。Inc - v3ens3、Inc - v3ens4和IncRes - v2ens均为防御模型。
- 研究动机
- 基于现有攻击方法的观察
- TIM的特性:在基于梯度的攻击方法中,平移不变方法(TIM)可被视为对梯度的高斯模糊过程。通过实验发现,TIM能使正常图像逐渐模糊,但对于有垂直和水平条纹的图像,其模糊效果不佳,即无法改变图像的条纹特征。
图2. 由平移不变性方法生成的两行图像,其不同的尺度范围从5到25。第一行的图像随着平移尺寸的增大逐渐变得模糊,而第二行的图像则保持稳定。 - DIM的特性及与TIM的关系:多样输入方法(DIM)通过以概率
p
p
p 对输入应用随机且可微的变换,然后将变换后的输入送入白盒模型计算梯度。观察发现,DIM生成的多样输入的梯度具有许多垂直和水平条纹,且条纹数量取决于多样性尺度。直观上,DIM可缓解TIM导致的梯度信息损失,从而生成更具可迁移性的对抗样本。然而,DIM的超参数设置(如变换概率
p
p
p 和限制的多样性规模)限制了其与TIM结合的效果,无法充分发挥优势。
图3. 一个具有不同多样性尺度的多样示例的一组可视化梯度。随着多样性尺度的增加,这些图像中黑色条纹的数量也会增加。此外,通过将非零值设置为255来可视化梯度,以突出零值。因此,黑色条纹表示梯度的零值,而白色区域表示非零值。
- TIM的特性:在基于梯度的攻击方法中,平移不变方法(TIM)可被视为对梯度的高斯模糊过程。通过实验发现,TIM能使正常图像逐渐模糊,但对于有垂直和水平条纹的图像,其模糊效果不佳,即无法改变图像的条纹特征。
- 发现的线索与启示
- 多尺度梯度信息对对抗样本的可迁移性有益,这意味着不同多样性尺度的梯度信息组合可能提高攻击成功率。
- DIM对梯度信息的区域划分以及TIM中高斯滤波器对图像边缘的模糊影响,表明区域拟合在对抗样本生成中可能比传统的价值拟合更重要。
- 基于现有攻击方法的观察
- 研究方法与贡献概述
- 提出三阶段流程:为生成可迁移的对抗样本,本文引入一个三阶段流程,包括调整大小的多样输入(RDIM)、多样集成(DEM)和区域拟合。
- RDIM的提出:基于对DIM和TIM关系的探索,提出RDIM,它去除了DIM的变换概率 p p p,设置更大的多样性规模,并在每次迭代时将多样输入调整为原始大小,以更好地平衡梯度信息损失和条纹需求,从而提升攻击成功率。
- DEM的提出:作为RDIM的多尺度版本,DEM通过生成具有不同数量垂直和水平条纹的多尺度梯度,满足TIM对不同类型条纹图像模糊的需求,进一步提高攻击成功率。
- 区域拟合的引入:将传统的价值拟合转换为区域拟合,在每次迭代中使扰动大小直接达到界限,通过裁剪函数生成满足 L ∞ L_{\infty} L∞ 范数界限的对抗样本,加速寻找判别区域的过程。
- 研究贡献总结
- 首次探索了攻击方法之间的内部关系,发现多样输入梯度的条纹可缓解TIM导致的梯度信息损失。
- 提出RDIM能有效提升黑盒防御的攻击成功率,是一种强大的改进对抗样本可迁移性的方法。
- DEM可生成多尺度梯度,进一步提升攻击成功率,且区域拟合在迭代过程中的应用也有助于提高成功率。
- 最佳攻击方法RF - DE - TIM平均成功率达93%,高于现有基于梯度的攻击方法,为对抗攻击研究提供了新方向。
相关工作-Related Work
- 对抗样本生成方法
- 分类与目的:对抗样本生成方法主要用于分类任务,目的是以最小扰动大小实现高攻击成功率。攻击方法分为梯度基、分数基和决策基三类,本文聚焦于分类任务中的梯度基攻击。
- 梯度基攻击方法细分
- 梯度处理部分:Goodfellow提出FGSM,通过高效执行一步更新生成对抗样本;Kurakin扩展FGSM为BIM,但BIM在黑盒攻击中表现不佳;Dong提出MI - FGSM,通过引入动量项提升黑盒攻击成功率;Lin提出NI - FGSM,将Nesterov加速梯度应用于MI - FGSM进一步提高对抗样本可迁移性。
- 集成部分:Dong提出模型集成方法,用于欺骗通过集成对抗训练获得的鲁棒黑盒模型;Lin使用一组缩放图像实现模型增强,即尺度不变攻击方法(SIM)。
- 输入预处理部分:Dong提出平移不变攻击方法(TIM),使生成的对抗样本对判别区域不太敏感;Xie提出输入多样性(DIM),通过迭代对输入应用随机变换生成对抗样本。
- 防御方法分类
- 对抗训练:主要在训练过程中使用对抗样本扩充训练数据集,以扩大判别区域,提高模型鲁棒性。例如,Tramer等人提出的集成对抗训练通过为各种模型制作对抗样本扩充干净样本,进一步增强防御模型的鲁棒性。
- 输入修改:旨在通过不同修改方法减轻对抗扰动对模型的影响,如Xie采用随机调整大小和填充来防御对抗攻击,Liao使用高级表示引导去噪器减少对抗扰动的影响。
方法-Methodology
梯度攻击方法-Gradient-Based Attack Methods
本部分介绍了一系列基于梯度的攻击方法,这些方法通过计算损失函数相对于输入的梯度来生成对抗样本,以欺骗深度神经网络。
- FGSM(快速梯度符号法)
- 原理: 通过最大化预训练DNN的损失函数 J ( X a d v , y t r u e ) J(X^{adv}, y_{true}) J(Xadv,ytrue) 来生成对抗样本。
- 公式: X a d v = X + ε ⋅ s i g n ( ∇ X J ( X , y t r u e ) ) X^{adv}=X+\varepsilon \cdot sign(\nabla_{X} J(X, y_{true})) Xadv=X+ε⋅sign(∇XJ(X,ytrue)),其中 ∇ X J ( ⋅ , ⋅ ) \nabla_{X} J(\cdot, \cdot) ∇XJ(⋅,⋅) 计算损失函数关于 X X X 的梯度, s i g n ( ) sign() sign() 是符号函数, ε \varepsilon ε 限制扰动的 L ∞ L_{\infty} L∞ 范数。
- 特点: 能高效生成对抗样本,但攻击能力有限。
- I-FGSM(迭代快速梯度符号法)
- 原理: 多次应用FGSM,采用小步长 α \alpha α 迭代更新对抗样本。
- 公式: 从 X 0 a d v = X X_{0}^{adv}=X X0adv=X 开始,迭代计算 X t + 1 a d v = X t a d v + α ⋅ s i g n ( ∇ X t a d v J ( X t a d v , y t r u e ) ) X_{t+1}^{adv}=X_{t}^{adv}+\alpha \cdot sign(\nabla_{X_{t}^{adv}} J(X_{t}^{adv}, y_{true})) Xt+1adv=Xtadv+α⋅sign(∇XtadvJ(Xtadv,ytrue)),其中 X t a d v X_{t}^{adv} Xtadv 是第 t t t 次迭代生成的对抗样本。
- 特点: 相比FGSM,在迭代过程中逐步调整对抗样本,攻击能力有所增强。
- MI-FGSM(动量迭代快速梯度符号法)
- 原理: 在黑盒攻击中增强对抗样本的可迁移性,同时保持白盒攻击的成功率。引入动量项,累积之前的梯度方向,使更新方向更稳定。
- 公式: 更新梯度 g t + 1 = μ ⋅ g t + ∇ X t a d v J ( X t a d v , y t r u e ) ∥ ∇ X t a d v J ( X t a d v , y t r u e ) ∥ 1 g_{t+1}=\mu \cdot g_{t}+\frac{\nabla_{X_{t}^{adv}} J(X_{t}^{adv}, y_{true})}{\left\| \nabla_{X_{t}^{adv}} J(X_{t}^{adv}, y_{true}) \right\| _{1}} gt+1=μ⋅gt+ ∇XtadvJ(Xtadv,ytrue) 1∇XtadvJ(Xtadv,ytrue),然后生成对抗样本 X t + 1 a d v = X t a d v + α ⋅ s i g n ( g t + 1 ) X_{t+1}^{adv}=X_{t}^{adv}+\alpha \cdot sign(g_{t+1}) Xt+1adv=Xtadv+α⋅sign(gt+1),其中 g t g_{t} gt 是第 t t t 次迭代的累积梯度, μ \mu μ 是 g t g_{t} gt 的衰减因子。
- 特点: 通过动量项加速收敛,提高了对抗样本在不同模型间的转移性。
- NI-FGSM(Nesterov迭代快速梯度符号法)
- 原理: 集成Nesterov加速梯度,避免在迭代过程中错过全局最大值,提前预测梯度方向,使更新更有效。
- 公式: 先计算 X t n e s = X t a d v + α ⋅ μ ⋅ g t X_{t}^{nes}=X_{t}^{adv}+\alpha \cdot \mu \cdot g_{t} Xtnes=Xtadv+α⋅μ⋅gt,再更新梯度 g t + 1 = μ ⋅ g t + ∇ X t a d v J ( X t n e s , y t r u e ) ∥ ∇ X t a d v J ( X t n e s , y t r u e ) ∥ 1 g_{t+1}=\mu \cdot g_{t}+\frac{\nabla_{X_{t}^{adv}} J(X_{t}^{nes}, y^{true})}{\left\| \nabla_{X_{t}^{adv}} J(X_{t}^{nes}, y^{true}) \right\| _{1}} gt+1=μ⋅gt+ ∇XtadvJ(Xtnes,ytrue) 1∇XtadvJ(Xtnes,ytrue),最后生成对抗样本 X t + 1 a d v = X t a d v + α ⋅ s i g n ( g t + 1 ) X_{t+1}^{adv}=X_{t}^{adv}+\alpha \cdot sign(g_{t+1}) Xt+1adv=Xtadv+α⋅sign(gt+1)。
- 特点: 在MI-FGSM基础上进一步改进,提高了对抗样本的可迁移性和攻击成功率。
- DIM(多样输入法)
- 原理: 每次迭代对输入示例应用随机变换,以增加多样性,使生成的对抗样本更具可迁移性。
- 公式: 变换函数 T ( X t a d v , p ) = { T ( X t a d v ) with probability p X t a d v with probability 1 − p T(X_{t}^{adv}, p)=\begin{cases}T(X_{t}^{adv}) & \text{with probability } p \\ X_{t}^{adv} & \text{with probability } 1-p\end{cases} T(Xtadv,p)={T(Xtadv)Xtadvwith probability pwith probability 1−p。
- 特点: 通过随机变换输入,扩大了搜索空间,但存在概率 p p p 和多样性尺度限制。
- TIM(平移不变性方法)
- 原理: 使用一组平移后的图像形成对抗样本,使生成的对抗样本对判别区域不敏感,提高可迁移性。
- 公式: X t + 1 a d v = ∑ i , j T i j ( X t a d v ) X_{t+1}^{adv}=\sum_{i, j} T_{ij}(X_{t}^{adv}) Xt+1adv=∑i,jTij(Xtadv),满足 ∥ X t a d v − X r e a l ∥ ∞ ≤ ϵ \left\| X_{t}^{adv}-X^{real} \right\| _{\infty} \leq \epsilon Xtadv−Xreal ∞≤ϵ,其中 T i j ( X t a d v ) T_{ij}(X_{t}^{adv}) Tij(Xtadv) 表示沿二维分别平移输入 X t a d v X_{t}^{adv} Xtadv, i i i 和 j j j 像素的平移函数。
- 特点: 可视为对梯度的高斯模糊过程,能减少模型对特定区域的依赖,但可能导致梯度信息损失。
观察分析
本部分基于对现有攻击方法(多样输入方法DIM和平移不变性方法TIM)的观察,分析了它们的特性以及对生成对抗样本可迁移性的影响,为提出改进方法提供了依据。
- DIM的局限性
- 输入尺寸问题: DIM的输入尺寸( S 1 × S 1 × 3 S1×S1×3 S1×S1×3, S 1 > 299 S1>299 S1>299)大于正常尺寸( 299 × 299 × 3 299×299×3 299×299×3),导致模型输出偏差。且DIM处理后未将多样输入调整为原始尺寸,为避免输入尺寸差异过大,其多样性尺度限制在330,影响了生成对抗样本的多样性。
- 概率限制: DIM设置了转换概率 p p p,进一步限制了多样性,使得其在提升对抗样本可迁移性方面存在不足。
- TIM的特性与问题
- 高斯模糊效果: TIM可被视为对梯度的高斯模糊过程,会导致梯度信息损失。较小核的TIM在多模型攻击中表现较好,但仍存在信息损失问题。
- 条纹图像攻击失效: 具有垂直和水平条纹的图像即使经过TIM扰动,在攻击DNN时仍更容易失败,表明TIM在处理此类图像时存在不足。
- DIM与TIM的关系及启示
- 条纹对TIM的影响: DIM生成的多样输入的梯度具有垂直和水平条纹,而TIM无法模糊此类条纹图像。这说明DIM可以缓解高斯模糊对梯度信息的损失,使两者结合生成的对抗样本更具可迁移性。
- 多尺度梯度需求: 不同多样性尺度的多组梯度能够满足TIM对模糊不同类型条纹图像的需求,暗示多尺度梯度信息有助于提高对抗样本的可迁移性。
- 区域拟合的重要性: DIM将梯度信息划分为多个区域,大核高斯滤波器可能模糊图像边缘,这表明在对抗样本生成中,区域拟合比价值拟合更重要,为后续改进方法提供了思路。
调整输入尺寸多样化方法-Resized-Diverse-Inputs Methods
基于前文对多样输入方法(DIM)和平移不变性方法(TIM)的分析,本部分提出了调整输入尺寸多样化(RDIM)方法,旨在改进DIM以更好地与TIM结合,提高对抗样本的可迁移性。
- RDIM的改进措施
- 移除转换概率 p p p: 与DIM不同,RDIM不再设置随机变换的概率,使得每次迭代都能对输入进行变换,增加了输入的多样性,有助于生成更具可迁移性的对抗样本。
- 增大多样性尺寸: RDIM设置了更大的多样性尺寸,不再受限于DIM的较小尺度(如330)。更大的多样性尺寸能够提供更多样化的输入,从而更充分地探索模型的决策边界,提高对抗样本的有效性。
- 调整为原始尺寸: 在每次变换后, RDIM将经过变换和处理的多样输入调整回原始尺寸。这一操作解决了DIM中因输入尺寸变化导致的模型输出偏差问题,使得生成的对抗样本在保持多样性的同时,更贴合原始输入的特征,提高了攻击的成功率。
- RDIM的算法步骤
- 随机获取尺寸: 从均匀分布 U n i f ( S , S 1 ) Unif(S, S1) Unif(S,S1) 中获取随机尺寸 a a a,其中 S S S 为原始尺寸, S 1 S1 S1 为设定的较大多样性尺寸。
- 调整输入图像大小: 使用 r e s i z e resize resize 函数将输入图像 X X X 调整为随机尺寸 a a a,得到 X r Xr Xr.
- 计算填充尺寸: 计算填充尺寸 H = S 1 − a H = S1 - a H=S1−a,用于后续对调整大小后的图像进行填充。
- 获取随机填充大小: 从均匀分布 U n i f ( 0 , H ) Unif(0, H) Unif(0,H) 中获取随机的顶部 t o p top top 和左侧 l e f t left left 填充大小,进而计算底部 b o t t o m = H − t o p bottom = H - top bottom=H−top 和右侧 r i g h t = H − l e f t right = H - left right=H−left 填充大小。
- 进行填充操作: 使用 p a d d i n g padding padding 函数对 X r Xr Xr 进行填充,得到填充图像 X p Xp Xp.
- 最终调整尺寸: 再次使用 r e s i z e resize resize 函数将填充图像 X p Xp Xp 调整回原始尺寸 ( S , S ) (S, S) (S,S),得到最终的多样输入 X d Xd Xd。
- RDIM的意义
通过上述改进,RDIM能够更好地与TIM配合,在生成对抗样本时平衡梯度信息的损失和条纹需求。实验表明,RDIM在攻击成功率方面优于DIM,为提高对抗样本的可迁移性提供了一种有效的方法,为后续进一步改进攻击方法奠定了基础。
多样化集成(DEM)方法
本部分提出了多样化集成(DEM)方法,作为调整输入尺寸多样化(RDIM)的多尺度版本,旨在通过生成多尺度梯度来进一步提高对抗样本的可迁移性,以满足平移不变性方法(TIM)对不同类型条纹图像模糊的需求。
- DEM的原理
- 多尺度梯度生成: 受前文分析中多尺度梯度信息有助于提高对抗样本可迁移性的启发,DEM能够生成具有不同数量垂直和水平条纹的多尺度梯度。这些多尺度梯度可以为TIM提供更多样化的输入,使其能够更好地处理具有不同条纹特征的图像,从而提高对抗样本在不同模型间的转移性。
- DEM的操作方式
- 融合多尺度 l o g i t s logits logits: 类似于集成 l o g i t s logits logits 方法,DEM通过融合 K K K 个不同多样性尺度的 l o g i t s logits logits 来实现多尺度梯度的生成。对于第 k k k个尺度的调整输入 T ( X , S k ) T(X, S_{k}) T(X,Sk),其 l o g i t s logits logits 为 l ( T ( X , S k ) ) l(T(X, S_{k})) l(T(X,Sk)),然后通过加权求和的方式融合这些 l o g i t s logits logits,公式为 l ( X ) = ∑ k = 1 K ω k l ( T ( X , S k ) ) l(X)=\sum_{k=1}^{K} \omega_{k} l(T(X, S_{k})) l(X)=∑k=1Kωkl(T(X,Sk)),其中 ω k \omega_{k} ωk 为第 k k k 个尺度的集成权重,满足 ω k ≥ 0 \omega_{k} \geq 0 ωk≥0 且 ∑ k = 1 K ω k = 1 \sum_{k=1}^{K} \omega_{k}=1 ∑k=1Kωk=1。通过调整权重,可以控制不同尺度梯度在生成对抗样本时的贡献,以适应不同的攻击场景和模型特性。
- DEM的作用
DEM作为RDIM的扩展,进一步丰富了对抗样本生成过程中的梯度信息多样性。在实验中,将DEM集成到现有的攻击方法中,能够显著提高对多个防御模型的攻击成功率,证明了其在提高对抗样本可迁移性方面的有效性,为对抗攻击方法的改进提供了新的思路和手段。
区域拟合
本部分提出将价值拟合转换为区域拟合的方法,以改进对抗样本的生成过程,提高其可迁移性。这一方法主要基于对平移不变性方法(TIM)和多样输入方法(DIM)在处理梯度方式上的特点分析。
- 区域拟合的原理
- TIM对梯度的处理: TIM可被视为对梯度进行大核( 15 × 15 15×15 15×15)高斯模糊的过程,它主要处理像素区域。
- DIM对梯度的影响: DIM将梯度信息划分为多个区域,这与TIM的处理方式相关。
- 区域拟合的概念: 与传统的正常迭代方法中逐像素值拟合不同,区域拟合在迭代过程中关注像素区域。通过改变扰动增加的方式,区域拟合在每次迭代时使扰动大小直接达到 ε \varepsilon ε,而不是逐步增加到 ε \varepsilon ε.
- 区域拟合的公式表达
- 区域拟合的更新公式为 X t + 1 a d v = C l i p ε { X t a d v + ε ⋅ s i g n ( g t + 1 ) } X_{t+1}^{adv}=Clip_{\varepsilon}\{X_{t}^{adv}+\varepsilon \cdot sign(g_{t+1})\} Xt+1adv=Clipε{Xtadv+ε⋅sign(gt+1)}。与传统的基于梯度的攻击方法(如Nesterov迭代快速梯度符号法NI - FGSM)的更新公式不同,这里将步长 α \alpha α 替换为 ε \varepsilon ε。在NI - FGSM中,迭代过程通过步长 α \alpha α 逐步增加扰动大小,最终达到 ε \varepsilon ε;而区域拟合在每次迭代时就使扰动大小达到 ε \varepsilon ε,然后通过裁剪函数 C l i p ε Clip_{\varepsilon} Clipε 将生成的对抗样本限制在 L ∞ L_{\infty} L∞ 范数边界内,确保生成的对抗样本满足一定的扰动限制,同时加速了搜索判别区域的过程。
- 区域拟合的效果
- 实验表明,区域拟合能够加速寻找判别区域的过程。通过与价值拟合(如传统迭代方法)对比,区域拟合在生成对抗样本时能够更快地收敛到有效的扰动,使得对抗样本在早期迭代中就能具备较好的攻击能力,生成的对抗样本具有更详细的纹理(如图4所示),从而提高了对抗样本的可迁移性,进一步增强了攻击方法的有效性。这一方法在与其他改进方法(如RDIM、DEM等)结合时,共同提高了整体攻击方法对多种防御模型的攻击成功率。
图4. 在十次迭代中分别使用价值拟合(第一行)和区域拟合(第二行)生成的扰动的可视化。价值拟合在前四次迭代中无法生成具有详细纹理的扰动。
实验-Experiments
表1. 本文中使用的缩写
实验设置-Experimental Settings
本部分详细介绍了为验证所提方法有效性而进行实验的各项设置,包括数据集、模型、基线方法和超参数等方面,为后续实验结果的比较和分析提供了统一的框架。
- 数据集
- 使用与ImageNet兼容的数据集,该数据集曾用于NIPS 2017对抗竞赛。图像尺寸为 299 × 299 × 3 299×299×3 299×299×3,通过在该数据集上进行实验,能够全面比较所提方法与基线方法的性能。
- 模型
- 防御模型:考虑了六种防御模型,即Inc-v3ens3、Inc-v3ens4、IncRes-v2ens、高级表示引导去噪器(HGD)、通过随机调整大小和填充进行输入变换(R&P)以及NIPS 2017对抗竞赛中的rank-3提交模型。这些模型作为鲁棒的黑盒防御模型,用于评估对抗样本的攻击效果。
- 白盒模型:为了生成对抗样本,采用了四个正常训练的模型,包括Inception v3(Inc-v3)、Inception v4(Inc-v4)、Inception ResNet v2(IncRes-v2)和ResNet v2 - 152(Res-v2 - 152)。由这些正常训练模型生成的对抗样本将用于攻击上述六种防御模型,且这些对抗样本在生成过程中未考虑任何防御策略,从而更真实地模拟了实际攻击场景。
- 基线方法
- 在实验中,首先通过RDI - FGSM、RDI - MI - FGSM和TI - RDIM来探索攻击方法之间的内部关系。然后,在单尺度攻击方式下,将TI - RDIM和NI - TI - RDIM分别与TI - DIM和NI - TI - DIM进行比较;在多尺度攻击方式下,将DE - TIM和DE - NI - TIM与SI - TIM和SI - NI - TIM进行比较。此外,还将RF - DE - TIM、SI - NI - TIM和SI - NI - TI - DIM纳入基于集成的攻击中进行对比,通过与这些基线方法的比较,能够更准确地评估所提方法的性能优势。
- 超参数
- 遵循TIM中的设置,迭代次数 T = 10 T = 10 T=10,最大扰动 ε = 16 \varepsilon = 16 ε=16,衰减因子 μ = 1.0 \mu = 1.0 μ=1.0,TIM的核大小设置为 15 × 15 15×15 15×15。对于SI - NI - FGSM,遵循NIM中的设置,尺度副本数量 m = 5 m = 5 m=5。对于DEM,多样性列表设置为 [ 340 , 380 , 420 , 460 , 500 ] [340, 380, 420, 460, 500] [340,380,420,460,500]。确保所有攻击方法使用相同的超参数设置,以保证实验结果的可比性和公正性,使得实验结果能够更准确地反映所提方法本身的性能。
内部关系-The Internal Relationship
本部分通过实验研究了调整输入尺寸多样化(RDIM)与平移不变性方法(TIM)之间的内部关系,以及它们对生成对抗样本可迁移性的影响,为理解所提方法的有效性提供了理论依据。
- 实验设置与数据收集
- 使用RDI - FGSM、RDI - MI - FGSM和TI - RDIM三种方法,以不同的多样性尺度对Inc - v3模型进行攻击,并记录针对六个黑盒模型(Inc - v4、IncRes - v2、Res - v2 - 152、Inc - v3ens3、Inc - v3ens4和IncRes - v2ens)的攻击成功率。
- 实验结果分析
- RDIM相关方法的成功率变化:随着多样性尺度增加,RDI - FGSM和RDI - MI - FGSM的成功率下降,而TI - RDIM的成功率先上升,在多样性尺度超过520后略有下降。
- 图像条纹与攻击关系:具有垂直和水平条纹的图像在攻击DNN时更容易失败,即使经过TIM扰动。如图2所示,TIM无法模糊此类条纹图像,而如图3所示,多样输入的梯度具有许多垂直和水平条纹。
- DIM与TIM的关系:这些结果表明DIM可以减少条纹对TIM的影响,使两者结合生成的对抗样本更具可迁移性。然而,DIM设置的转换概率 p p p 和有限的最大多样性尺度(330)限制了其效果,因为它未充分考虑条纹对TIM的积极作用。
- RDIM的改进意义
- 基于上述分析,RDIM通过移除转换概率 p p p、设置更大的多样性尺度并调整为原始尺寸,改进了DIM。实验结果验证了前文对DIM和TIM特性及关系的分析,表明RDIM能够更好地与TIM结合,减少条纹对攻击的影响,从而提高对抗样本的可迁移性,为后续进一步改进攻击方法奠定了基础。
图5. 针对六个黑盒模型(Inc - v4、IncRes - v2、Res - v2 - 152、Inc - v3ens3、Inc - v3ens4和IncRes - v2ens)的黑盒攻击成功率(%)。对抗样本是分别使用RDI - FGSM、RDI - MI - FGSM和TI - RDIM为Inc - v3生成的,多样性尺度范围从320到500。
单模型攻击-Single-Model Attacks
本部分将单模型攻击实验分为单尺度攻击和多尺度攻击两类,分别比较了基于调整输入尺寸多样化(RDIM)方法和其他相关方法在生成对抗样本时对黑盒防御模型的攻击成功率,以评估所提方法在不同攻击场景下的有效性。
- 单尺度攻击实验
- 实验方法:使用TI - DIM、TI - RDIM、NI - TI - DIM和NI - TI - RDIM四种方法,分别为Inc - v3、Inc - v4、IncRes - v2和Res - v2 - 152四个正常训练模型生成对抗样本,然后使用六个防御模型(Inc - v3ens3、Inc - v3ens4、IncRes - v2ens、HGD、R&P、NIPS - r3)对这些对抗样本进行防御测试,记录攻击成功率。
- 实验结果:从表2和表3中可以看出,将RDIM集成到攻击方法中(如TI - RDIM和NI - TI - RDIM),相较于基线方法(TI - DIM和NI - TI - DIM),在攻击六个防御模型时,成功率有显著提高,提高幅度在2% - 14%之间。这表明RDIM在单尺度攻击中能够有效提高对抗样本的可迁移性,优于传统的多样输入方法(DIM),是一种提升攻击效果的有力手段。
表2. 单模型设置下针对六个防御模型的黑盒攻击成功率(%)。对抗样本是分别使用TI - DIM和TI - RDIM为Inc - v3、Inc - v4、IncRes - v2、Res - v2 - 152生成的。
表3. 单模型设置下针对六个防御模型的黑盒攻击成功率(%)。对抗样本是分别使用NI - TI - DIM和NI - TI - RDIM为Inc - v3、Inc - v4、IncRes - v2、Res - v2 - 152生成的。
- 多尺度攻击实验
- 实验方法:采用SI - TIM、DE - TIM、SI - NI - TIM和DE - NI - TIM方法,同样为上述四个正常训练模型生成对抗样本,并使用六个防御模型进行防御测试,记录攻击成功率。
- 实验结果:由表4和表5可知,集成了多样化集成(DEM)方法的攻击(如DE - TIM和DE - NI - TIM),与基线方法(SI - TIM和SI - NI - TIM)相比,对六个防御模型的攻击成功率大幅提升,提升范围在11% - 24%之间。特别是使用DE - TIM攻击IncRes - v2模型时,对抗样本对所有六个防御模型的成功率均不低于78%。这表明DEM在多尺度攻击中能够进一步提高对抗样本的可迁移性,生成的对抗样本具有很强的攻击性,同时也反映出当前防御方法在应对此类攻击时的不足。
表4. 单模型设置下针对六个防御模型的黑盒攻击成功率(%)。对抗样本是分别使用SI - TIM和DE - TIM为Inc - v3、Inc - v4、IncRes - v2、Res - v2 - 152生成的。
表5. 单模型设置下针对六个防御模型的黑盒攻击成功率(%)。对抗样本是分别使用SI - NI - TIM和DE - NI - TIM为Inc - v3、Inc - v4、IncRes - v2、Res - v2 - 152生成的。
集成模型攻击-Ensemble-based Attacks
本部分进一步展示了针对集成模型生成对抗样本的攻击性能,将实验分为单尺度攻击和多尺度攻击,通过比较不同方法生成的对抗样本对多个防御模型的攻击成功率,评估所提方法在集成模型攻击场景下的有效性。
-
单尺度攻击实验
- 实验方法:使用TI - DIM、TI - RDIM、NI - TI - DIM和RF - TI - RDIM方法,为Inc - v3、Inc - v4、IncRes - v2和Res - v2 - 152的集成模型(权重相等)生成对抗样本,然后用六个防御模型(Inc - v3ens3、Inc - v3ens4、IncRes - v2ens、HGD、R&P、NIPS - r3)对这些对抗样本进行防御测试,记录攻击成功率。
- 实验结果:从表6中可以看出,提出的调整输入尺寸多样化(RDIM)方法(如TI - RDIM和RF - TI - RDIM)在集成模型攻击中,相较于基线方法(TI - DIM和NI - TI - DIM),能够提高攻击成功率。其中,RF - TI - RDIM方法的成功率提升更为显著,这表明RDIM在集成模型攻击场景下同样有效,且与其他改进措施(如区域拟合)结合时,可进一步增强攻击效果。
表6. 多模型设置下针对六个防御模型的黑盒攻击成功率(%)。对抗样本是使用TI - DIM、TI - RDIM、NI - TI - DIM和RF - TI - RDIM为Inc - v3、Inc - v4、IncRes - v2、Res - v2 - 152的集成模型生成的。
-
多尺度攻击实验
- 实验方法:采用SI - NI - TIM、SI - NI - TI - DIM、DE - NI - TIM、DE - TIM和RF - DE - TIM方法,为集成模型生成对抗样本,并使用六个防御模型进行防御测试,记录攻击成功率。
- 实验结果:由表7可知,多样化集成(DEM)方法和区域拟合(如DE - TIM、DE - NI - TIM和RF - DE - TIM)在多尺度攻击中表现出色。它们集成到现有攻击方法中后,显著提高了对抗样本的可迁移性,攻击成功率大幅提升。特别是RF - DE - TIM方法,平均成功率达到93%,对六个防御模型均有很高的攻击成功率。这表明DEM和区域拟合能够有效提升集成模型攻击的效果,生成的对抗样本具有很强的攻击性,同时也凸显了当前防御方法在面对此类高效攻击时的不足,迫切需要开发更有效的防御手段。
表7. 多模型设置下针对六个防御模型的黑盒攻击成功率(%)。对抗样本是使用SI - NI - TIM、SI - NI - TI - DIM、DE - NI - TIM、DE - TIM和RF - DE - TIM为Inc - v3、Inc - v4、IncRes - v2、Res - v2 - 152的集成模型生成的。
结论-Conclusion
本部分总结了论文的主要研究内容和成果,强调了所提出的方法在提高对抗样本可迁移性方面的重要性,并对未来研究方向提出了期望。
- 研究成果总结
- 提出了一种三阶段流程方法,包括调整输入尺寸多样化(RDIM)、多样化集成(DEM)和区域拟合,用于生成可迁移的对抗样本。
- 探索了多样输入方法(DIM)与平移不变性方法(TIM)之间的内部关系,发现DIM生成的多样输入梯度的条纹特征可缓解TIM导致的梯度信息损失。
- 基于上述关系提出RDIM,通过移除DIM的转换概率、增大多样性尺寸并调整为原始尺寸,与TIM结合时能更好地平衡梯度信息损失与条纹需求,提高了攻击成功率。
- 提出DEM作为RDIM的多尺度版本,生成多尺度梯度以满足TIM对不同条纹图像的处理需求,进一步提升了攻击成功率。
- 将价值拟合转换为区域拟合,使扰动在每次迭代时达到指定值,加速了寻找判别区域的过程,提高了对抗样本的可迁移性。
- 实验效果验证
- 经过在ImageNet数据集上的广泛实验,证明了RDIM、DEM和区域拟合方法的有效性。在单模型攻击和集成模型攻击实验中,所提方法在单尺度和多尺度攻击场景下均显著优于基线方法,最佳攻击方法RF - DE - TIM对六个黑盒防御模型的平均攻击成功率达到93%,高于现有基于梯度的多模型攻击方法。
- 研究意义与展望
- 研究成果为理解和改进对抗攻击方法提供了新的视角,揭示了攻击方法之间内部关系的重要性。希望这些发现能够为未来对抗攻击领域的研究提供潜在的方向,推动开发更有效的攻击和防御策略,以应对深度神经网络在面对对抗样本时的安全挑战。