深度学习对抗样本的防御方法

最新推荐文章于 2025-11-13 08:33:16 发布

原创

最新推荐文章于 2025-11-13 08:33:16 发布 · 7k 阅读

58 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #神经网络 #人工智能

本文概述了2013年以来深度学习模型对抗攻击的发展，重点介绍了对抗攻击的分类（白盒与黑盒，目标与非目标攻击）以及防御方法，包括模型层面的修改网络（如蒸馏、正则化和压缩网络）和使用附加网络（如防御通用扰动、GAN防御及检测）。数据层面防御涉及对抗训练和测试阶段的输入修改。文章还讨论了当前面临的挑战和未来研究方向。

作者： 19届 lz

论文：《深度学习对抗样本的防御方法综述》

问题

2013年，Szegedy 等人 [1]首先通过添加轻微扰动来干扰输入样本，使基于深度神经网络（Deep neural network, DNN）的图片识别系统输出攻击者想要的任意错误结果，此过程称为对抗攻击.
研究人员表明，现代深度神经网络模型极易受到人类视觉系统几乎无法察觉的微小扰动的对抗攻击。这种攻击可以造成神经网络分类器对原始图像进行错误预测。如果将其应用于现实世界，如恶意代码检测、无人驾驶系统、生物医学领域，将会带来极为严重的后果

贡献:

本文根据对抗攻击的分类，从模型和数据两个层面对防御策略进行了分类和介绍。通过对相关研究工作的调研和分析，未来针对对抗深度学习的研究可以从两个角度展开。

相关工作

对抗样本指的是攻击者在数据集原始输入样本通过添加人类无法察觉的细微扰动来形成新的输入样本，导致模型以高置信度给出一个错误的输出，以欺骗机器学习模型。

深度神经网络（ DNN ）是典型的深度学习模型，其他深度学习模型在其基础上进行扩展。 DNN 本质是一个函数链，是由多个神经网络层累加起来的结构，神经网络层由多个人工神经元构成，每个神经元都是一个感知器，可以将一组输入映射到具有激活功能的输出值上。 DNN 每个函数是由每一层上的神经元组成，其目标是使训练的模型与真实的数据生成过程相匹配。函数表达如下所示：
在这里插入图片描述
深度神经网络的强表达能力使其在许多领域取得了巨大的成功。CNN被广泛应用于计算机视觉领域，RNN在处理具有可变长度的顺序输入数据