《StyLess: Boosting the Transferability of Adversarial Examples》论文解读

最新推荐文章于 2024-10-26 18:34:09 发布

原创最新推荐文章于 2024-10-26 18:34:09 发布 · 1.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

人工智能顶会论文解读同时被 3 个专栏收录

17 篇文章

订阅专栏

深度学习安全

11 篇文章

订阅专栏

对抗攻击

9 篇文章

订阅专栏

本文提出StyLess方法，通过在代理模型中使用风格化代替模型和自适应实例规范化来控制风格特征，从而减少对非鲁棒风格特征的依赖，提高对抗样本的迁移性。实验结果表明StyLess有效且适用于多种攻击场景。

StyLess: Boosting the Transferability of Adversarial Examples

摘要
1 Introduction
2 Methodology
3 总结

原文链接

摘要

对抗样本具有迁移性，所以可以攻击不知道结构和参数的model

限制对抗样本迁移性的原因：现在的transferable attack在优化过程中没有区分style和content特征

我们提出了style-less perturbation (StyLess)

我们使用stylized networks作为surrogate model，通过扰动自适应实例规范化来编码不同的风格特征。

surrogate model(替代模型):通常是已知且可访问的深度神经网络模型，攻击者使用这个模型来生成对抗性扰动或样本。然后利用它们去攻击其它的黑箱模型。

本文的方法可以防止使用non-robust style features的对抗样本，并且有助于生成可迁移的对抗性扰动

1 Introduction

对抗样本具有迁移性，相同的对抗样本可以攻击多个黑盒DNN。

图像的背景与内容是可以解耦的，因此我们利用风格迁移技术根据随机的风格图像来生成不同风格的图像。

图像风格包括：颜色，纹理（textures），亮度（lighting）

鲁棒的DNN在预测目标是应该减少对背景的依赖。

这启发我们从避免非鲁棒特性的角度来改进攻击的可转移性。本文认为style features是non-robust的。当时目前的攻击方法都没有区分风格和内容特征，因此导致了攻击的迁移性降低。

本文提出的方法：

用stylized surrogate models来控制特征。

stylized surrogate models通过在vanilla model(原始的surrogate model)增加adaptive instance normalization (IN) layer。

通过调整插入的IN layer的参数，我们可以轻易地改变surrogate model的风格。

在比较stylized surrogate model和vanilla surrogate model在优化过程中的loss变化。我们发现vanilla surrogate model的对抗性loss比stylized surrogate model的对抗性loss增加得快很多，导致了loss差距扩大。

上面这个现象说明：当前的攻击方法只关注了最大化vanilla surrogate model的对抗性loss,导致了它的style feature的使用增加。

那我们应该如何抑制style feature的使用来提高对抗样本的迁移性呢？

攻击迭代优化过程中使用多个合成的风格特征与原始风格特征进行竞争，具体过程见图1

1.通过IN层将各种合成的样式特征编码到代理模型中，来实现style surrogate model

2.我们用来自stylized surrogate model和vanilla surrogate model的梯度来更新对抗样本

3.surrogate model的前部用作样式编码器，而IN层模拟合成的样式特征。

本文的贡献：

1.引入了一种解释攻击迁移性的新视角:原始风格特征可能会阻碍攻击的迁移性。我们验证了当前迭代攻击在优化过程中越来越多地使用代理模型的风格特征。

2.提出了一种新的攻击称为StyLess，以提高迁移性，通过尽量减少使用原有的风格特征。为了实现这一点，我们插入一个IN层来创建stylized surrogate model，并使用stylized surrogate model和vanilla surrogate model的梯度。

2 Methodology

2.1 Threat Model

**攻击目标：**给定一个benign image x,它的label是 y，迁移攻击的目标是在白盒代理攻击F上生成对抗扰动。定义为：
$\max_\delta \mathcal{L}(F(x + \delta), y) \quad \text{s.t.} \quad \|\delta\| \leq \varepsilon$

其中L代表对抗性Loss,δ是对抗扰动， $\varepsilon$ 是扰动的最大size

Attacker capability：我们在之前的工作中遵循相同的设置，攻击者有一个代理模型和一些测试样本，但不能access目标模型，并且不知道网络架构、训练数据或防御策略。值得注意的是，我们的方法不需要任何额外的数据集。我们的方法涉及到风格特征，它可以从任意图像中提取，也可以在没有任何风格图像的情况下合成。

Transferable attacks as black-box attacks：可迁移攻击使用代理模型F来创建对抗性示例，这些示例可以欺骗看不见的目标模型。这样，这些攻击可以被视为黑盒攻击。

2.2 Motivation

目前的攻击方法，只关注了如何最大化surrgate model的对抗性loss，但没有注意到在这个过程中会提高对于non-robust style feature的使用，这样会降低攻击的可迁移性。

我们方法的关键：模拟各种代理模型，而不需要给定的vanilla surrogate model的样式特征。

stylized models 可以显式地操作样式特征，而不会影响模型的准确性。

2.3 Stylized Surrogate Models

∆L：表示stylized models和vanilla surrogate model之间对抗性损失的差距。

∆L限制了对抗攻击的可迁移性

2.3.1 Encoding Styles by Stylized Models

给定分类器 $F_2 \circ F_1$ 作为surrogate model，我们的stylized surrogate model定义为：
$\bar{F}_{x_s} = F_2 \circ \text{IN}_{x_s} \circ F_1$
$x_s$ 是一个style input , $IN_{x_s}$ 是一个由 $x_s$ 实例化的IN层。

IN层的定义：
$\text{IN}(x; \mu, \sigma) = \sigma \cdot \left( \frac{x - \mu(x)}{\sigma(x)} \right) + \mu$
其中μ和σ为IN层的网络参数，μ(x)和σ(x)是输入x的均值和方差。根据AdaIN的定义，从 $x_s$ 迁移风格到 $x$ 只需要：
$\text{IN}_{x_s}(x) = \text{IN}(x) \big|_{\mu=\mu(x_s), \sigma=\sigma(x_s)}$
stylized model $\bar{F}_{x_s}$ 有编码的样式特征。 $F_1$ 作为风格转换的encoder。

给定一个风格输入 $x_s$ ，stylized image $\bar{x} = D \circ \text{IN}_{x_s} \circ F_1$

2.3.2 Stylized Loss Gap Limits Transferability

为了验证这些stylized model对抗攻击的效果，定义了stylized loss gap：
$\Delta \mathcal{L} = \mathbb{E}_{x_s \in D}[\mathcal{L}(F(x), y) - \mathcal{L}(\bar{F}_{x_s}(x), y)]$

2.4 Proposed Style-Less Perturbations (StyLess)

本文最终用于生成对抗样本的loss
$\max_\delta \mathbb{E}_{x_s \in D}[\mathcal{L}(\bar{F}_{x_s}(x + \delta), y) + \mathcal{L}(F(x + \delta), y)]$
生成多个风格化模型的关键是对方程4的风格统计量μ， σ进行综合，得到参数化的IN层。

我们建议使用缩放和插值来模拟多种风格特征，公式为：
$\mu = \beta(\lambda \mu_x + (1 - \lambda) \mu_s),$

$\sigma = \gamma(\lambda \sigma_x + (1 - \lambda) \sigma_s),$

$\mu_x$ , $\sigma_s$ 是输入x的F1(x)的均值和方差，它们也表示了 $x_s$ 的风格

本文的算法见：

3 总结

本文从风格特征的角度分析了攻击可迁移性的机制。现有的攻击方法在迭代优化过程中越来越多地使用代理模型的样式特征，这阻碍了攻击的可转移性。为了解决这个问题，我们提出了一种新的攻击方法，称为StyLess，通过减少对原始风格特征的依赖来增强可转移性。StyLess使用程式化的代理模型而不是普通的代理模型。实验结果表明，StyLess大大优于现有的攻击方法，并且可以与其他攻击方法相结合。值得注意的是，StyLess是一种不同于以前可转移攻击方法的范式，我们希望它能在未来阐明对抗性攻击的解释。