Advances in adversarial attacks and defenses in computer vision: A survey论文解读

本文综述了深度学习视觉模型面临的对抗攻击与防御方法,详细介绍了对抗攻击的基本原理、发展历程及最新进展。对抗攻击通过微小扰动误导模型输出,对模型安全性构成严重威胁。

Abstract

深度学习由于其能准确解决复杂问题的能力,现在被广泛应用于计算机视觉中。然而,现在已知DL对于对抗攻击来说是十分脆弱的。对抗攻击通过通过在视频或图片中加入视觉上无法察觉的微小扰动来改变模型的输出。自从2013[1]年发现了这种现象后,这个研究方向已经吸引了大量注意力。在[2]中,我们回顾了2018年之前对深度学习的对抗性攻击(以及防御)中的进展。这些进展激励了对抗领域中的新方向,并在这些新方向上出现了许多新的攻击方法,这些新方法相比上一代方法明显更加成熟。因此,作为[2]的续集,这篇综述关注于对抗领域2018年后的新进展。为了确保真实性,我们主要考虑发表在著名的计算机视觉和机器学习研究源上贡献。除了给出一个详尽的综述外,这篇文章同样提供了对于领域内术语的精确定义。最后,这篇文章讨论了这个领域的挑战以及未来展望。

1 Introduction

深度学习 (DL) [3] 能在大规模数据集上构建精准复杂的数学模型。它在近些年已经为研究者在机器智能方向上提供了大量的突破。从分析DNA突变[4]到重建大脑回路[5]和探索细胞数据[6];深度学习方法目前正在提高我们对许多前沿科学问题的认识。因此,机器智能的多个子领域正在迅速采用深度学习作为解决问题的有效工具。除了语音识别[7]和自然语言处理[8],计算机视觉也是当前严重依赖深度学习的子领域之一。

Krizhevsky等人[9]在2012年的开创性工作触发了计算机视觉中深度学习应用的兴起,他们的工作报告了使用卷积神经网络(CNN)[11]对图像识别任务[10]的创纪录性能改进。自[9]以来,计算机视觉界对深度学习研究做出了重大贡献,这导致了功能越来越强大的神经网络[12]、[13]、[14],其结构包含多层架构,从而确立了“深度”学习的本质。计算机视觉领域的进步也使深度学习能够解决人工智能(AI)的复杂问题。例如,现代人工智能的最高成就之一,即tabla-rasa学习[15]应归功于起源于计算机视觉领域的残差学习[12]。

由于深度学习的优秀表现[15],基于计算机视觉的人工智能被认为已经足够成熟,可以在安全和安保关键系统中部署。汽车驾驶员[18]、自动取款机中的人脸识别[19]和移动设备的人脸识别技术[20]是一些深度学习部署在现实世界的例子,但近期发现的深度学习对于对抗攻击的脆弱性对这种大规模应用的安全性提出了极大的挑战[1]。

Szegedy et al. [1]发现了深度神经网络的预测结果可以被输入数据上极小的扰动改变。对于图片来说,这些扰动可以被限制为对人眼视觉不可见的程度,如图1所示。最初,人们仅在图像分类任务中应用对抗攻击 [1]。然而现在对抗攻击被广泛应用于各种计算机视觉任务中, 例如语义分割[27], [28]; 目标检测 [29], [30]; 以及目标追踪 [31], [32]。这些文献突出了对抗攻击的许多特征,这些特征使得对抗攻击成为对深度学习实际部署的真正威胁。例如,经常观测到的一个现象是被攻击的模型通常会对处理后的图像以很高的置信度输出错误结果[2],[17]。另外发现的一点是同样的扰动通常可以欺骗多个模型[33],[34]。文献中还提及了一种称为通用扰动的对抗扰动,这些扰动可以被添加到“任意”图片中,以很高的置信度让模型给出错误结果[35],[36]。以上这些事实对于深度学习在安全敏感方向的部署有很大的影响。

由于对抗攻击的重要特性,对抗扰动在过去五年间受到了非常多的关注。综述[2]中介绍的是2018年之前的工作,这些工作中的一大部分都可以被视为the first-generation techniques that explore the core algorithms and techniques to fool deep learning or defend it against the adversarial attacks. Some of those algorithms have inspired streams of followup methods that further refine and adapt the core attack and defense techniques. These second-generation methods are also found to focus more on other vision tasks instead of just the classification problem, which is the main topic of interest in early contributions in this direction.

2 Definition of Terms

3 Adversarial Attacks:The formal problem

M(.)\mathcal{M}(.)M(.)表示目标深度模型,其判别过程为M(I):I→l\mathcal{M}(I):I\to lM(I):Il,其中I∈RmI\in\mathbb{R}^mIRm表示输入图片,l∈Z+l\in\mathbb{Z}^+lZ+表示模型输出。对抗攻击的目标就是寻找某个信号ρ∈Rm\rho\in\mathbb{R}^mρRm使得M(I+ρ)→l~\mathcal{M}(I+\rho)\to\tilde{l}M(I+ρ)l~,这里l~≠l\tilde{l}\ne ll~=l。为了确保对原始图片的改动对人眼不可见,扰动ρ\rhoρ需要加上范数限定,例如设定为∥ρ∥p<η\Vert\rho\Vert_p<\etaρp<η ,这里∥.∥p\Vert.\Vert_p.p指代一个向量的lpl_plp范数,η\etaη是一个预定义的标量。准确地讲,对抗攻击的整体过程可以用如下公式进行描述:

M(I+ρ)→l~s.t. l~≠l, ∥ρ∥p<η(1)\mathcal{M}(I+\rho)\to\tilde{l}\quad s.t.\ \tilde{l}\ne l,\ \Vert\rho\Vert_p<\eta\quad\quad\quad\quad\quad\quad(1)M(I+ρ)l~s.t. l~=l, ρp<η(1)

上面的公式化表示代表了目前对于对抗攻击最普遍的理解。然而,它并不包括所有的攻击。 例如, unrestricted adversarial examples [43], [44], 这里攻击者既不限定于操纵原始图像(例如图像本身是可以变换的)也不限定于需要小于某个特定的范数值,这就不能使用(1)中的约束来进行描述。类似地,在图像中添加局部但是可感知的对抗扰动也无法使用(1)进行说明。因此,为了使得定义更广泛,我们考虑如下的约束:

M(I~)→l~s.t. l~≠l, I~∈SI, M(I∼{ SI−I~})=l(2)\mathcal{M}(\tilde{I})\to\tilde{l}\quad s.t.\ \tilde{l}\ne l,\ \tilde{I}\in\mathcal{S}_I,\ \mathcal{M}(I\sim\{\mathcal{S}_I-\tilde{I}\})=l\quad\quad\quad\quad\quad\quad(2)M(I~)l~s.t. l~=l, I~SI, M(I{ SII~})=l(2)

where SI is the set of images perceived as clean or allowed
by humans to produce the desired output `. For the sake of
brevity, we are assuming a single adversarial sample in SI in
(2). T

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值