机器学习中对抗样本的可视化分析
1. 模型的鲁棒性
提高机器学习(ML)模型对抗对抗样本(AEs)的鲁棒性是一个重要的研究课题。已有许多研究致力于开发对 AEs 具有鲁棒性的模型,其中对抗训练已被证明能取得最先进的结果。在对抗训练中,ML 模型会特意使用 AEs 进行训练。然而,模型的准确性和鲁棒性之间存在权衡。
有研究认为,鲁棒模型与非鲁棒模型本质上不同。非鲁棒模型通过依赖弱相关特征来实现高性能,而鲁棒模型学习到的特征与人类感知更相符,这一有趣的观察也得到了其他研究者的证实。
受相关研究启发,有人提出了雅可比对抗正则化网络(JARNs),用于提高神经网络对 AEs 的鲁棒性。其核心问题是:由于鲁棒模型相对于输入图像的损失梯度是可解释的,那么将可解释的损失梯度作为训练目标,能否实现鲁棒模型?
JARN 的架构与生成对抗网络(GANs)类似,具体如下:
- 生成器网络:通过最小化对抗损失,使分类器的损失梯度类似于输入图像。
- 判别器网络:通过最大化对抗损失,区分生成的损失梯度和输入图像。
实验结果表明,JARN 提高了分类器的鲁棒性。若使用一步对抗训练,鲁棒性还能进一步提升。除了可视化损失梯度,绘制模型的损失表面也可用于解释模型的鲁棒性。
以下是一个简单的表格总结鲁棒模型和非鲁棒模型的区别:
| 模型类型 | 特征学习方式 | 性能特点 |
| ---- | ---- | ---- |
| 鲁棒模型 | 学习与人类感知相符的特征 | 鲁棒性高,但可能牺牲一定准确性 |
| 非鲁棒模型 | 依赖弱相关特征 | 准确性高,但鲁棒性低 |
超级会员免费看
订阅专栏 解锁全文
4945

被折叠的 条评论
为什么被折叠?



