针对物体检测器的物理对抗样本
Physical Adversarial Examples for Object Detectors
Kevin Eykholt, Ivan Evtimov, Earlence Fernandes, Bo Li, Amir Rahmati, Florian Tramer, Atul Prakash1, Tadayoshi Kohno, Dawn Song
目录
4.2.3使用总变化进行噪声平滑(Noise Smoothing using Total Variation)
摘 要
深度神经网络( DNNs )容易受对抗样本攻击——恶意修改的输入导致DNNs做出不正确的预测。最近工作表明,这些攻击扩展到了物理领域,在各种真实世界条件下对物体产生扰动,欺骗图像分类器。这种攻击对安全要求高的网络物理系统中使用的深度学习模型构成了威胁。
本文中,我们将物理攻击扩展到更具挑战性的物体检测模型,它是一类广泛用于检测和标记场景中多个对象的深度学习算法。我们从以前对图像分类器的物理攻击上进行改进,创建了带有扰动的物体,它被物体检测模型忽略或错误标记。我们进行了消失攻击(Disappearance Attack),导致检测器认为停车路标“消失”了——用对抗性停车路标的海报贴在该路标,或者在路标上添加对抗性标签。在受控实验室环境录制的视频中,最先进的YOLO v2检测器无法识别85 %以上视频帧中的对抗性停车路标。在室外实验中,YOLO在72.5 %的视频帧和63.5 %的视频帧中各自被海报和贴纸攻击欺骗。我们还使用了其他物体检测模型Faster R-CNN,来证明对抗性扰动的可传递性(transferability)。在受控实验室环境中,85.9 %的视频帧和40.2 %的室外环境中,所创建的海报扰动能够欺骗Faster R-CNN。最后,用一种新的创造攻击(Creation Attack)展示了初步结果,用无害的(innocuous)物理标签欺骗模型去检测不存在的物体。
1、介绍
深度神经网络( DNNs )广泛应用于计算机视觉、自然语言和机器人技术,尤其是安全要求高的任务,如自动驾驶[ 9 ]。与此同时,DNNs已经被证明易受对抗样本[ 3、6、7、14、17 ]的攻击,这些恶意扰动的输入导致DNNs产生不正确的预测。这些攻击给在安全和安保要求高的决策中使用深度学习带来了风险。例如,攻击者可以在停车路标上添加人类可能忽略的扰动,并导致嵌入在自动驾驶车辆中的DNN错误分类或忽略该路标。
早期的作品只研究数字空间中的对抗样本。然而,最近已经表明,也有可能在各种物理条件(例如,物体距离、姿态、照明等)下产生扰动[ 1、2、4、8、20 ]。这些工作集中于攻击分类网络,即对静态输入图像产生单一预测的模型。在本文工作中,我们开始探索物体检测网络的物理对抗样本,检测器是一种更丰富的深度学习算法,可以检测和标记场景中的多个物体。物体检测网络是一种流行的工具,用于实时和动态识别周围物体,自动驾驶是一种典型的应用。众所周知,物体检测器易受数字攻击,但它们易受物理攻击仍是一个悬而未决的问题。
与分类器相比,物体检测网络更难攻击: 1 )检测器处理整个场景,而不是单个局部对象。这允许检测器使用上下文信息(例如,场景中物体的方位和相对位置)来生成预测。2 )检测器不限于产生单个预测。相反,它们通常通过组合场景中物体位置和这些物体标签来标记场景中的每个识别对象。对物体检测器的攻击需要考虑两种类型的预测(对象的存在/不存在以及对象的性质nature of object),而对分类器的攻击只关注修改单个(可能存在的)对象的标签。
为了对目标检测器创建概念验证(proof-of-concept)攻击,我们从Eykholt等人现有的鲁棒物理扰动( RP2 )算法[ 4 ]开始,其最初是为了对图像分类器产生健壮的物理攻击。Eykholt等人的方法 (和其他人的[ 1,8 ] )是从模拟对象的物理扰动(例如,视角和距离)的分布中采样,并找到一个扰动,该扰动最大化了该分布下的误分类概率。我们发现他们工作中考虑的物理扰动不足以扩展到物体检测器。
实际上,当使用图像分类器时,先前的工作认为目标对象占据了图像的很大一部分,并且其在图像中的相对位置变化很小。然而,当在诸如驾驶汽车的动态环境中执行物体检测时,场景中多个对象的相对大小和位置可能会发生剧烈变化。这些变化产生了额外的限制,必须考虑这些限制才能产生成功的鲁棒物理攻击。例如,许多物体检测器将场景分成网格或使用滑动窗口来识别感兴趣区域,并为每个感兴趣区域产生单独的物体预测。随着对象相对位置的变化,对象所在的网格单元(以及相应的网络权重)也会发生变化。因此,鲁棒扰动必须同时适用于多个网格单元。我们表明,通过扩展Eykholt等人认为的输入分布来考虑场景中对象的额外合成转换(例如,视角、大小和位置的变化),可以获得对这些物理修改的鲁棒性。
跟随Eykholt等人,我们考虑对停车路标的检测和分类的物理对抗攻击,这是成功攻击的安全隐患的一个例证。这种扰动虽然大到足以被人眼看到,但却被限制为类似于手工涂鸦或细微的照明假象,可以被认为是良性的。我们针对目标检测器考虑非目标攻击,称之为消失攻击。在消失攻击中,我们制作了一张对抗性海报或者贴在停车路标上的物理标签(见图2 ),使得物体检测器在不同场景中的物体以不同的距离、位置和视角忽略该路标。这种攻击类似于Eykholt等人考虑的攻击,但目标是更丰富的深层神经网络。
我们还引入了一种新的创造攻击,人类会忽略的不起眼的物理标签会被物体检测器识别为本身不存在的停车标志。这种攻击不同于以前试图欺骗网络将一个对象错误分类为另一个对象的攻击,因为它创建了全新的对象分类。具体来说,我们尝试制作对抗性贴纸(类似于[ 2 ]中考虑的贴纸)。这种贴纸可以用来在路标检测器上发动拒绝服务攻击。
在我们的实验中,我们的目标是最先进的YOLO v2 ( You Only Look Once )物体检测器[ 16 ]。YOLO v2是一个深度卷积神经网络,对80个对象类执行实时对象检测。我们的室内(实验室)和室外实验表明,在距离目标物体30英尺的范围内,利用海报和贴纸扰动,检测器可能会被欺骗而无法感知攻击者的目标物体。
我们的贡献:
- 我们扩展Eykholt等人的RP2算法给目标检测网络提供概念验证攻击,目标检测器是比图像分类器更丰富的DNNs。
- 使用我们新的改进算法,提出了一种新的对物体检测网络的物理攻击:消失攻击,这种攻击导致检测器忽略物体。
- 我们在室内和室外环境中评估对YOLO v2物体检测器的攻击。结果显示,对抗性海报干扰在室内实验室环境中录制的85.6 %的视频帧和在室外环境中录制的72.5 %的视频帧中欺骗了YOLO v2。我们的对抗性贴纸在实验室环境中录制的85 %的视频帧,在室外环境中的63.5 %的视频帧欺骗了YOLO v2。
- 我们在实验室和室外环境中使用Faster R-CNN目标检测器评估攻击的可转移性。结果显示,在实验室环境中录制的85.9 %的视频帧和室外环境中录制的40.2 %的视频帧中攻击欺骗了Faster R-CNN。
- 我们提出并试验了一种新型创造攻击,旨在欺骗检测器将对抗性贴纸识别为不存在的物体。对这种攻击类型的结果是浅显初级的,但令人鼓舞。
我们的工作证明了物理扰动对物体检测器是有效的,并留下了一些未来的问题: 1 )延展到其他物理环境(例如,移动车辆,甚至真正的自动驾驶车辆)。2 )进一步探索其他类型的攻击:我们的工作介绍了使用海报或贴纸的消失攻击和创造攻击,但也有其他看似可信的攻击类型(例如,制造人类无法识别但被DNNs识别的物体)。3 )对分段网络的物理攻击。我们设想,未来的工作将建立在这提出的基础上,并将创建跨物理环境(例如,真正的自动驾驶车辆)和跨类别的物体检测网络(例如,语义分段[ 22 ])的攻击。