AI后门检测论文翻译:Universal Litmus Patterns: Revealing Backdoor Attacks in CNNs

翻译

Universal Litmus Patterns: Revealing Backdoor Attacks in CNNs

代码链接:https://umbcvision. github.io/Universal-Litmus-Patterns/

摘要:

深度神经网络在许多应用中取得了空前的成功,使这些网络成为对抗性开发的主要目标。 在本文中,我们介绍了一种基准技术,用于检测深度卷积神经网络(CNN)上的后门攻击(比如木马攻击)。 我们介绍了通用石蕊模式(ULP)的概念,该概念通过将这些通用模式馈送到网络并分析输出(即,将网络分类为“干净”或“损坏”)来揭示后门攻击。 这种检测速度很快,因为它仅需要通过CNN进行几次前向传递。 我们证明了ULP可以检测具有数千种不同架构的网络上的后门攻击的有效性,这些网络在四个基准数据集(德国交通标志识别基准(GTSRB),MNIST,CIFAR10和Tiny-ImageNet)上进行了训练。

Introduction

深度神经网络(DNN)已成为众多机器学习应用程序的标准构件,包括计算机视觉[10],语音识别[2],机器翻译[34]和机器人操纵[16],从而实现了最先进的状态 极难完成的任务具有一流的表现。 这些网络的广泛成功使它们成为在敏感域中部署的主要选择,包括但不限于医疗保健[25],金融[7],自动驾驶[3]和与国防相关的应用[23]。

与其他机器学习模型类似,深度学习架构容易受到对抗性攻击。 这些漏洞引起了围绕这些模型的安全性担忧,从而导致了一个广阔的研究领域。 对DNN的对抗攻击以及针对此类攻击的防御措施。 对这些模型的一些经过深入研究的攻击包括规避攻击(又名推理或摄动攻击)[32、8、4]和中毒攻击[24、19]。 在规避攻击中,对手对图像或对象施加数字或物理扰动,以对模型进行有针对性或无针对性的攻击,这将导致错误的分类或普遍较差的性能(例如,在回归应用程序中)。

另一方面,中毒攻击可分为两种主要类型:1)碰撞攻击和2)后门攻击(又称特洛伊木马),它们具有不同的用途。在碰撞攻击中,对手的目标是将受感染的样本(例如,带有错误的类别标签的样本)引入训练集中,以降低训练模型的测试性能。碰撞攻击会阻碍受害者训练可部署的机器学习模型的能力。另一方面,在后门攻击中,对手的目标是在训练集中引入触发器(例如,贴纸或特定的配件),以使特定触发器的出现使训练过的模型变得愚蠢。后门攻击更隐蔽,因为被攻击的模型在典型的测试示例上表现良好,并且仅在存在触发器的情况下才会表现异常。作为可能造成致命后果的后门攻击的示例,请考虑以下自动驾驶场景。接受过交通标志检测培训的CNN可能被后门感染。训练深层CNN的耗时性质导致了一种普遍的做法,即使用预先训练的模型作为较大模型的整体或一部分(例如用于感知前沿)。 由于预训练的模型通常来自第三方(可能是未知的),因此识别预训练的模型的完整性至关重要。 但是,鉴于后门攻击的隐秘性质,仅评估干净测试数据的模型是不够的。 此外,原始训练数据通常不可用。 在这里,我们提出一种检测CNN的后门攻击的方法,而无需:1)访问训练数据或2)对干净数据进行测试。 相反,我们使用一小组通用测试模式来探查后门模型。

受通用对抗扰动[21]的启发,我们引入了通用石蕊模式(ULP),它们是经过优化的输入图像,网络的输出可以很好地指示网络是否干净或是否包含后门攻击。 我们在数千个经过训练的网络(参见图1a)和四个数据集上证明了ULP的有效性:德国交通标志识别基准(GTSRB)[29],MNIST [15],CIFAR10 [13]和Tiny-ImageNet [1] 。 ULP的检测速度很快,因为每个ULP仅需要通过网络的一个前向通过。 尽管如此简单,但令人惊讶的是,ULP在检测后门攻击,建立新的性能基线方面具有竞争优势:ROC曲线下的面积在CIFAR10和MNIST上均接近1,在GTSRB上为0.96(对于ResNet18),在Tiny-ImageNet上为0.94。

Related Work

产生后门攻击:Gu等[9]和刘等[20,19]显示了强大而隐秘的后门的可能性。Gu等人使用的感染样本。 [9]依靠一个可以将任意输入标签对注入训练集中的对手。 如果人们可以使用中毒的训练设备,则可以可靠地检测到此类攻击,例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值