深度学习对抗样本的防御方法

本文概述了2013年以来深度学习模型对抗攻击的发展,重点介绍了对抗攻击的分类(白盒与黑盒,目标与非目标攻击)以及防御方法,包括模型层面的修改网络(如蒸馏、正则化和压缩网络)和使用附加网络(如防御通用扰动、GAN防御及检测)。数据层面防御涉及对抗训练和测试阶段的输入修改。文章还讨论了当前面临的挑战和未来研究方向。

作者: 19届 lz

论文:《深度学习对抗样本的防御方法综述》



问题

2013年 ,Szegedy 等 人 [1]首先通过添加轻微扰动来干扰输入样本,使基于深度神经网络(Deep neural network, DNN)的图片识别系统输出攻击者想要的任意错误结果,此过程称为对抗攻击.
研究人员表明,现代深度神经网络模型极易受到人类视觉系统几乎无法察觉的微小扰动的对抗攻击。这种攻击可以造成神经网络分类器对原始图像进行错误预测。如果将其应用于现实世界,如恶意代码检测、无人驾驶系统、生物医学领域,将会带来极为严重的后果

贡献:

本文根据对抗攻击的分类,从模型和数据两个层面对防御策略进行了分类和介绍。通过对相关研究工作的调研和分析,未来针对对抗深度学习的研究可以从两个角度展开。



相关工作

对抗样本指的是攻击者在数据集原始输入样本通过添加人类无法察觉的细微扰动来形成新的输入样本,导致模型以高置信度给出一个错误的输出,以欺骗机器学习模型。

深度神经网络( DNN )是典型的深度学习模型,其他深度学习模型在其基础上进行扩展 。 DNN 本质是一个函数链,是由多个神经网络层累加起来的结构,神经网络层由多个人工神经元构成,每个神经元都是一个感知器,可以将一组输入映射到具有激活功能的输出值上 。 DNN 每个函数是由每一层上的神经元组成,其目标是使训练的模型与真实的数据生成过程相匹配。函数表达如下所示:
在这里插入图片描述
深度神经网络的强表达能力使其在许多领域取得了巨大的成功。CNN被广泛应用于计算机视觉领域,RNN在处理具有可变长度的顺序输入数据

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

中南大学苹果实验室

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值