EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES 论文笔记
EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES
原论文链接
摘要
包括神经网络在内的许多机器学习模型都很容易受到对抗样本(adversarial examples)的攻击导致误分类,对抗性样本指通过刻意的给输入增加一些轻微的恶意扰动,从而使系统以高置信度对样本进行错误的分类。之前的一些观点认为这种现象是由于非线性性质和过拟合导致的,但是本文认为神经网络对于对抗性干扰的易损性(vulnerability)的本质原因是他们在高维空间的线性性质。而最有趣的现象在于他们具有跨架构和训练集的泛化能力,本文是最先对这种现象给出解释的论文,并且这个解释得到了新的定量结果的支持。此外,本文还提供了一种简单而快速的方法来生成对抗样本,使用这种方法来提供对抗性训练的样本,可以减少 MNIST 数据集上的测试误差。
简介
对抗样本易损性:通过刻意的给输入增加一些轻微的恶意扰动,就可以使机器学习模型以高置信度对样本进行错误的分类。在很多情况下,同一个对抗样本可以让使用不同架构,在不同训练集下训练的不同模型做出误判,这说明对抗样本暴露了训练算法中的一些共通的基础盲点。
这些现象的原因是一个谜,一种推测认为这是由于深度神经网络的极端非线性,可能使模型均值化不充分以及纯监督学习的正规化不充分相结合。但本文证明这种猜测是不成立的,高维空间的线性性质足以导致对抗性样本产生,这种观点使得我们可以设计一种快速的方法来产生对抗样本以及进行对抗性训练。对抗性样本可以产生比 dropout 更优秀的正则化收益,通用的正则化策略并不能显著的降低模型的对抗样本易损性,而将模型转变为非线性模型族就有可能做到,例如 RBF 网络。
本文展示了一种权衡,是将模型训练为容易训练的线性模型,还是训练为复杂的非线性模型以抵御对抗样本的干扰。长远来看,设计更多训练非线性模型的更强大的优化方法可以避免这种问题。
相关工作
Szegedy 等人在论文 Intriguing properties of neural networks 中展示了神经网络的一些有趣的性质,本文涉及的有:
- Box-constrained L-BFGS 可以有效的找出对抗性样本
- 在一些数据集中,对抗性样本和原样本非常相似,人眼难以找出差别
- 在很多情况下,同一个对抗样本可以让使用不同架构,在不同训练集下训练的不同模型做出误判
- 浅层的 softmax 回归模型也具有对抗样本易损性
- 使用对抗性样本进行训练可以使模型正则化,但是这种方法需要在内循环中进行约束性优化,时间成本非常高昂,在实践中难以实现。
这些性质就表明即使是在测试集上表现优异的分类模型,实际上也并没有学习到真正决定正确类别的内在概念。恰恰相反,这些算法就像一个 Potemkin village,在自然发生的数据中表现良好,但是当出现概率非常低的数据的时候,就会产生虚假的输出。这点尤其让人感到失望,因为计算机视觉的主流方法就是使用CNN的特征空间上用欧氏距离近似感知距离,但是如果感知距离非常小的图像对应于网络表征中的完全不同的类,那么这种相似性显然是有缺陷的。但是,这种缺陷在某种程度上也正好是用来修复这个问题的方式。
对抗样本的线性解释
因为样本输入特征(input feature)的精度(precision)是有限的,比如一般图像的每个像素是8 bits, 那么样本中所有低于 1 / 255 1/255 1/255 的信息都会被丢弃,所以当样本 x x x 中每个元素值添加的扰动值 η \eta η 小于样本输入特征精度时,分类器无法将样本 x x x 和对抗样本 x ~ = x + η \tilde{\boldsymbol{x}}=\boldsymbol{x}+\boldsymbol{\eta} x~=x+η 区分开。因此,对一个区分良好的类别而言,如果 ϵ \epsilon ϵ 是一个足够小以至于被舍弃掉的值,那么只要 ∥ η ∥ ∞ < ϵ \|\eta\|_{\infty}<\epsilon ∥η∥∞<ϵ,分类器就会将 x x x 和 x ~ \tilde{x} x~ 分为同一个类。
思考一下权重向量 w w w 和对抗样本 x ~ \tilde{x} x~ 的点积(dot product):
w ⊤ x ~ = w ⊤ ( x + η ) = w ⊤ x + w ⊤ η w^{\top} \tilde{x}=w^{\top}(x+\eta)=w^{\top} x+w^{\top} \eta w⊤x~=w⊤(x+η)=w⊤x+w⊤η
对抗性干扰导致 activation 增加了 w ⊤ η