关于Intriguing properties of neural networks的理解

本文探讨了神经网络中对抗样本的概念,揭示了其存在性的原因。首先介绍了Szegedy等人发现的神经元激活特性,随后重点阐述了对抗样本的定义及获取方法,并对存在的可能性进行了初步解释。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 这是有关神经网络的对抗样本的首篇文章,Szegedy等人发现了神经网络的一些(两个)有趣的性质。
 第一个是关于高维神经网络的神经元的含义问题,先前的一些工作认为深度神经网络的神经元都代表着某一个特征,因此他们寻找能够最大激活某一个特定神经元的样本集合。而他们的实验发现,通过寻找最大化激活某个特定神经元的方法也许并没有真正找到本质的信息。因为即便是对于某一个隐层的所有神经元的线性加权进行最大化激活,也同样会对一组图片表现出相近的语义亲和性,并且,这个发现在不同的数据集上得到了验证。
我们求解如下问题来找到最大化激活该神经元 ϕ(x) ϕ ( x ) 的样本:

x=argmaxxϕ(x),ei x ′ = arg ⁡ max x ∈ I ⟨ ϕ ( x ) , e i ⟩

MNIST
其中 ei e i 对应隐层第 i i 个神经元的自然基向量ei=(0,...,1,...0)
如果我们选择该层神经元的随机线性组合进行最大化:
x=argmaxxϕ(x),v x ′ = arg ⁡ max x ∈ I ⟨ ϕ ( x ) , v ⟩

MNIST
发现得到了相似的结果,这说明也许是该隐层划分的空间,而不是单个的神经元包含了语义的信息。
 关于这个进一步的解释我也并不了解,因为我们真正感兴趣的是第二个性质,对抗样本的存在。对抗样本是指对原样本产生一些微小的扰动(甚至人眼都可能无法察觉),然而分类器却产生了完全不一样的结果,甚至以高置信度错误分类。
 作者通过求解以下优化问题得到对抗样本:
minc|r|+lossf(x+r,l) min c | r | + l o s s f ( x + r , l )

其中 lossf l o s s f 是神经网络对应的损失函数, l l 是错误分类的类别标记,即f(x+r)=l,f(x)l c c 是罚参数来控制|r|的大小。作者选择L-BFGS来求解该问题。如果这是一个凸优化问题,我们一定可以找到精确的"最近"对抗样本。可神经网络的损失函数往往是非凸的,因此我们只能不精确求解找到对抗样本(即找到的对抗样本不一定是最近)。可以看到该方法是最小化样本 x x 对目标类别l的损失函数。
 此外,对于对抗样本的存在性,作者也给出了一个可能的解释:就是现实世界中,对抗样本发生的概率是很低的。因此在训练集和测试集中都很少见到。而由于模型(神经网络)的高度非线性,导致过拟合只学习到了非对抗样本的特征,并没有学到真正所需要的泛化特征。因此对于生成的对抗样本很容易判断失误。类似于知乎上一个同学举的例子:"假如我们需要一个分类器:能够区分正实数和负实数。由于在整个实数集中,无理数的个数比有理数多很多很多(多了无穷多个,无理数的基数比有理数的基数大),那么我们收集数据的时候,收集到的数大部分都是无理数,我们用这些无理数来训练分类器 ,用这些无理数来测试,发现正确率很高。可实际上呢,我们训练出来的分类器 是个区分正负无理数的分类器,并非是区分正负实数的分类器。由于,有理数是稠密的,即给定一个无理数 ,总有一个有理数 无限接近这个无理数,那么当我们用放到分类器测试,极有可能就分不出现正负。这里的有理数就类比于对抗样本。"( https://www.zhihu.com/question/49129585)
adv
也就是说:我们采样的数据分布并不代表完整的真实数据分布。
但是作者没有给出有力的解释。因此后来Goodfellow提出了线性性是导致对抗样本的原因等等一系列讨论。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值