<Fine-Pruning: Defending Against Backdooring Attacks on Deep Neural Networks>阅读笔记

该研究探讨了针对深度学习模型的后门攻击及防御策略。研究者实现了三种后门攻击并评估了修剪和微调作为防御手段的有效性。发现单纯的修剪或微调无法抵御复杂攻击,于是提出了一种名为精细修剪(fine-pruning)的方法,该方法结合了修剪和微调,能够在保持模型对清洁输入高准确率的同时,显著降低后门攻击的成功率。研究还揭示了攻击者可能通过使清洁和恶意输入激活相同神经元来规避修剪防御,而精细修剪则能有效应对这种攻击。

Abstract

提出了第一个针对后门攻击的有效的方案。我们根据之前的工作实现了三种攻击并使用他们来研究两种有希望的防御,即Pruning和fine-tuning。我们的研究表明,没有一个可以抵御复杂的攻击。我们然后评估了fine-pruning,这是结合了Pruning和fine-tuning,结果表明它可以削弱或者消除后门攻击,在一些例子中可以攻击成功率为0%,而良性输入的准确率下降只有0.4%。

1 Introduction

我们发现后门利用的是神经网络中的spare capacity,所以我们很自然想到用pruning做防御。pruning防御措施减少了被植入后门的王珞丹额size,通过修建那些在良性输入时会休眠的神经元,最终会使得后门行为失效。
尽管pruning在三种后门攻击上是成功的,不管我们设计了更强大的pruning-aware攻击(将clean和backdoor behavior集中到同样的神经元上),这可以规避Pruning防御。最后为了防御我们提出的这种更强大的攻击,我们设计了防御方案,可以执行fine-tuning,这是在干净的训练集上进行一小部分的局部重训练。尽管fine-tuning提供了一定程度的保护,我们发现将两者结合在一起,得到的fine-pruning在防御时是最有效的。我们需要指出,在迁移学习中,已经有fine-pruning这个术语了,不过是在安全场景下,第一次评估了迁移学习。

2 Background

2.1

2.2 Threat model

我们假设攻击者是进行白盒攻击,对训练过程和训练数据都完全的权限(但是没有held-out valadation set)。因此,攻击者可以添加任意数量的毒化样本,修改任何良性训练样本,调整训练过程(如epoch的数量,batch size,learning rate等),甚至可以手动修改设置的权重。
这里需要注意,我们对攻击者的能力做了更强的假设,在研究攻击的文章中,假设没这么强,这是很正常的,对于攻击来说,攻击者能力越受限制,说明越弱的攻击者也能造成严重的危害。我们的工作是做防御,所以我们把攻击者能力假设强了,说能表明我们工作的有效性。
2.3 Backdoor Attack
Face Recognition Backdoor
通过一对特制的太阳镜针对人脸识别系统进行了定向后门攻击。
在这里插入图片描述

Face Recognition Network:这里用的baseline DNN是先进的DeepID网络,带有一个共享卷积层,然后是两个并行的子网络,它们会被喂给最后的两个全连接层。网络参数如上图所示。
Speech Recognition Backdoor
这种攻击下的trigger是添加在干净声音样本上的特殊的噪声模式。下图可以看到clean和backdoored digit的声谱图

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值