Universal adversarial perturbations(翻译,侵删)

Universal adversarial perturbations(通用对抗扰动)

原文链接 https://www.researchgate.net/publication/309460742_Universal_adversarial_perturbations

摘要

考虑到一个顶尖的深度神经网络分类器,我们展示了一个通用(图像不可知)和非常小的扰动向量的存在,它会英气自然的图片,以一个很高的置信度被误分类。我们提出了一个系统的算法来计算通用扰动,来展示顶尖的深度神经网络对于这类扰动的高度的脆弱性,然而对人眼具有不可察觉性。我们进一步实验分析了这些通用扰动并且显示,特别的,他们在神经网络上泛化的非常的好。通用扰动的存在揭示了分类器高维决策边界之间的重要几何相关性。进一步强调了安全威胁,输入空间上的单一方向,攻击者可以容易的暴露类攻击在多数的自然图片上的分类器1

1. 介绍

我们能够找到一个单一的小的图片扰动,可以在所有的自然图片上,欺骗一个顶尖的深度神经网络分类器?我们在这篇文章中显示了这样的一个不可察觉的通用扰动向量的存在,这个扰动向量导致了自然的图片以一个很高的概率被误分类。特别的,通过添加这样的一个不可察觉的扰动到自然图片上,深度神经网络评估的标签以很高的置信度被改变了(见图1)。这个扰动称为通用,因为他们是图像不可知。这些扰动的存在是一个问题,当分类器被部署到真实的世界(可能是敌对)的环境,因为他们被暴露给了攻击者类破坏分类器。实际上,扰动过程涉及到,仅仅添加一个非常小的扰动到所有的自然图片,并且可以被攻击则在真实世界的环境中相对直接的实现,然而却相对困难来检测,因为这样的扰动非常的小,并且并没有显著的影响数据分布。通用对抗扰动的存在进一步揭示了关于深层神经网络决策边界拓扑结构的新见解。我们总结了这篇文章的主要的贡献,如下:

  • 我们显示了对于顶尖的深度神经网络,通用图片不可知的扰动的存在。
  • 我们提出了一个算法来寻找这样的扰动,这个算法在一系列的训练点上寻找一个通用的扰动,通过累加原子扰动向量进行,发生相继的数据点到分类器的决策边界。
  • 我们展示了通用扰动有一个显著的泛化属性,来自一个相当小的训练数据点的扰动可以以一个很高的置信度欺骗新的图片
  • 我们展示了这样的扰动不只是在图片上通用,也在深度神经网络上泛化。这样的扰动因此被称为通用,同时相对于数据和网络架构
  • 我们解释和分析了深度神经网络对于通用扰动的高度脆弱性,通过检查决策边界不同部分的几何相关性。

图片分类器的鲁棒性对于结构化和非结构化扰动,最近吸引了许多的关注。结果深度神经网络架构在挑战性的视觉分类基准上的令人印象深刻的表现,这些分类器被证明对于扰动具有高度的脆弱性。在19,这样的网络被证明对于小的和经常不可察觉的添加了对抗扰动,具有不稳定性。这种小心构造的扰动,或者通过解决一个优化问题,或者通过单步的梯度上升。产生一个扰动来欺骗一个特定的数据点。这些对抗扰动的一个有趣的特点是他们对于数据点的内在的依赖性:扰动被特别的构造对于每个数据点。结果是,计算一个对于一个新的数据点计算一个对抗扰动需要从头解决一个数据以来的优化问题。这和这篇文章提到的通用扰动不同,我们寻找一个单个扰动向量来欺骗网络在大多数的自然图片。扰动一个新的数据点,之后只需要涉及添加通用扰动到这个图片上(不需要解决一个优化问题或者梯度计算)。最后,我们强调了我们的通用扰动的概念不同于19所研究的生成对抗扰动,在MNIST任务上计算的扰动哦,被证明可以很好的泛化到其他的模型。确实,我们检查了通用样本的存在,对于大多数属于数据分布的数据点是常见的。

图1:当添加到一个自然图片,一个通用扰动的图片引起图片被深度神经网络以很高的置信度被误分类。左图:原始自然图片。标签在每一个箭头的顶部显示。中图:通用扰动。右图:扰动图片。评估标签在每一个箭头的顶部显示。

2. 通用扰动

在这个部分,我们形式化通用扰动的概念,并且提出一个方法来评估这类扰动。设 μ \mu μ为图片在 R d \mathbb{R}^d Rd上的分布, k ^ \hat{k} k^为一个分类函数对于每个图片 x ∈ R d x \in \mathbb{R}^d xRd等评估标签 k ^ ( x ) \hat{k}(x) k^(x).这篇文章的主要关注点在于寻找扰动向量 v ∈ R d v \in \mathbb{R}^d vRd,来欺骗分类器 k ^ \hat{k} k^,在从 μ \mu μ抽样的大多数的所有数据点。也就是,我们虚招一个向量 v v v满足
k ^ ( x + v ) ≠ k ^ ( x )   f o r " m o s t " x ∼ μ \hat{k}(x + v) \neq \hat{k}(x) \, for "most" x \sim \mu k^(x+v)=k^(x)for"most"xμ
我们将这样的一个扰动为通用,因为它表示了一个固定的图像不可知扰动,可以引起标签的改变,对于大多数从数据分布 μ \mu μ中抽样的图片。我们在这里关注数据分布 μ \mu μ表示自然图片的集合,因此包含一个巨大的可变性。在这个背景下,我们检查了小的通用扰动(以 L p L_p Lp范数 p ∈ [ 1 , ∞ ] p \in [1, \infty] p[1,]),可以误分类大多数的图片。因此,目标是找到 v v v满足下面的两个约束:
1. ∥ v ∥ p ≤ ξ 2. P ⁡ x ∼ μ ( k ^ ( x + v ) ≠ x ^ ) ≥ 1 − δ \begin{aligned} \quad 1.& \|v\|_p \leq \xi \\ \quad 2.& \underset{x \sim \mu}{\operatorname{\mathbb{P}}} (\hat{k}(x + v) \neq \hat{x}) \geq 1 - \delta \end{aligned} 1.2.vpξxμP(k^(x+v)=x^)1δ
参数 ξ \xi ξ控制扰动向量 v v v的规模, δ \delta δ量化希望欺骗的比率,对于来自分布 μ \mu μ抽样的图片。

算法. 设 X = { x 1 , ⋯   , x m } X = \{x_1, \cdots, x_m\} X={ x1,,xm}是来自分布 μ \mu μ抽样的图片。我们所提出的算法寻找一个通用扰动 μ \mu μ,满足 ∥ v ∥ p ≤ ξ \|v\|_p \leq \xi vpξ,并且欺骗大多数的在 X X X中的数据点,该算法在数据点 X X X上进行迭代,逐渐的建立通用扰动,如图2所示。在每次的迭代中,最小的扰动 Δ v i \Delta v_i Δvi,发送当前的扰动点,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值