Paper review: Explaining And Harnessing Adversarial Examples

本文探讨了对抗样本在深度学习中的作用，分析了其生成原因及影响。提出了FGSM方法高效生成对抗样本，通过对比线性模型和深度网络的对抗训练，揭示了抵抗对抗样本的关键在于模型的通用近似能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Summary

这篇论文分析了对抗样本的影响，即输入特征的轻微扰动造成输出的明显变化，以及出现的原因为训练模型的高度线性下。对这一违反直觉的解释是，由于输入特征的高维特性导致其上轻微扰动累积为输出的明显变化，或者可以说大多数人对于高维直觉很差。

其次，论文还提出了一个高效生成对抗样本的方法 FGSM，该方法只需一个闭式形式即可由源样本 $x\boldsymbol{x}$ 生成对抗样本 $x′\boldsymbol{x'}$ ， $sign(∇xJ(θ,x,y))\boldsymbol{x'} = \boldsymbol{x} + \epsilon\, sign(\nabla_\boldsymbol{x}J(\boldsymbol{\theta},\boldsymbol{x},y))$
接下来，作者进行了两种对抗训练，即将原训练在对抗样本中进行。第一个对比线性模型的对抗训练和 $L^1$ 权重衰减，结论是 $L^1$ 权重衰减高估了对抗样本造成的影响，即 $L^1$ 权重衰减的系数要远小于对抗扰动的系数，才能达到接近对抗训练的好结果。第二个是深度网路的对抗训练，通过对抗训练并结合 dropout 正则化能达到对对抗样本较好的抵抗性。由此得到结论，只有当模型能够应用通用近似定理时，才有学习抵抗对抗样本的能力。