Summary
这篇论文分析了对抗样本的影响,即输入特征的轻微扰动造成输出的明显变化,以及出现的原因为训练模型的高度线性下。对这一违反直觉的解释是,由于输入特征的高维特性导致其上轻微扰动累积为输出的明显变化,或者可以说大多数人对于高维直觉很差。
其次,论文还提出了一个高效生成对抗样本的方法 FGSM,该方法只需一个闭式形式即可由源样本 x\boldsymbol{x}x 生成对抗样本 x′\boldsymbol{x'}x′,x′=x+ϵ sign(∇xJ(θ,x,y))\boldsymbol{x'} = \boldsymbol{x} + \epsilon\, sign(\nabla_\boldsymbol{x}J(\boldsymbol{\theta},\boldsymbol{x},y))x′=x+ϵsign(∇xJ(θ,x,y))
接下来,作者进行了两种对抗训练,即将原训练在对抗样本中进行。第一个对比线性模型的对抗训练和 L1L^1L1 权重衰减,结论是 L1L^1L1 权重衰减高估了对抗样本造成的影响,即 L1L^1L1 权重衰减的系数要远小于对抗扰动的系数,才能达到接近对抗训练的好结果。第二个是深度网路的对抗训练,通过对抗训练并结合 dropout 正则化能达到对对抗样本较好的抵抗性。由此得到结论,只有当模型能够应用通用近似定理时,才有学习抵抗对抗样本的能力。
最后,论文中对对抗样本的泛化——一个模型的对抗样本通常被同一训练任务的其他模型误分类,给出的解释是线性行为是主要原因。论文最后还进行了一系列实验来反驳两个假设并得到结论:生成式训练和集成学习并不能有效抵抗对抗样本。
Strength
- 论文提出 FGSM 这一用来生成对抗样本的高效方法。
- 论文提供了一系列实验数据反驳的对抗样本的错误假设,并给出对抗样本产生的主要原因是极度线性化。这也给未来的研究避免了错误方向。
Weakness
无
Comments
本篇论文是对抗样本以及对抗训练的理论基础,对理解对抗攻击与防御领域很有帮助。