对抗样本引导入门
https://zhuanlan.zhihu.com/p/42667844
视频参考李宏毅+笔记
简介
-
机器学习方法,如SVM,神经网络等,虽然在如图像分类等问题上已经outperform人类对同类问题的处理能力,但是也有其固有的缺陷,即我们的训练集喂的都是natural input,因此在正常情况下处理的比较好。然而如果我们想要对ML模型进行攻击的话,可以通过一定的手段生成对抗样本(adversarial examples),以图像为例,对抗样本在每个像素点只有微小的扰动(pertubations),因此对于人类的眼睛是无法分辨的,即生成前后我们人类还会将其归为同一类别。然而ML模型在面对这些对抗样本时会出现不鲁棒的特点,对它们会产生错分。对抗样本生成的基本思路是:在训练模型的过程中,我们把输入固定去调整参数,使得最后的结果能对应到相应的输入;而生成对抗样本时,我们将模型固定,通过调整输入,观察在哪个特征方向上只需要微小的扰动即可使得我们的模型给出我们想要的错分的分类结果。研究对抗样本机器学习的目的就是,希望我们的模型对于对抗样本更加robust。

-
上图可以说明对抗样本是如何工作的。Model decision boundary 是我们训练的模型的分类边界,这个边界可以较好的将两类样本分开,但是如果我们对标出来的两个Test point 做一个微小的扰动,即可使其越过边界产生misclassification,因此我们的Task decision boundary就应当将这些对抗样本也分到其原本的类别。
-
对于这个问题,与普遍的安全问题类似,我们一般考虑两种角度,即attack和defense。其中attack试图更好的生成对抗样本以便使得分类结果符合attacker自己

最低0.47元/天 解锁文章
1025

被折叠的 条评论
为什么被折叠?



