开始写一写论文的总结,慢慢补
1.《BadNets Identifying Vulnerabilities in the Machine Learning Model Supply Chain》
概述:在一张图片上增加一个或者几个像素点来扰乱模型的准确性,导致在某些特定的训练集上精度异常低。
2.《Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images》
概述:利用遗传算法生成图像来扰乱模型,导致用户无法识别图像,电脑却可以识别图像。文章中使用了一种MAP-Elites的遗传算法来进行对抗样本的图片的生成。由于MAP-Elites算法的代码我并没有找到,(还在找),因此我使用了另一种比较普通的遗传进行测试,实验结果发现,当训练到一定的周期时,可以达到算法模型可以识别,但是人眼无法识别的地步(由于遗传算法原因,我的图像在一些眼尖的人中可以识别出来)。
3.《Explaining and Harnessing Adversarial Examples》
概述:利用 Fast Gradient Sign Method(快速梯度下降法)来对训练好的模型进行攻击,论文不对模型的参数造成攻击,而是在训练过程中依靠梯度反向生成对抗样本,举个例子,如果一个图片的某个像素点在一次训练的反向传播中为了让loss减少,应该是加上某个偏导数,而为了生成对抗样本,则反向的减去一些值,让这个loss反而增大。由于增加噪音无法指定让模型由正确的分类器转变为某个特定的错误分类,因此FGSM属于无目标攻击。
论文中给目标增加的噪音公式如下。其中sign为符号函数,即只判断正负,x为图片像素,y为真实标签值,前面那个希腊字母是学习率。学习率越大,噪音也越大,后面sign()的只影响正负。