人工智能安全（一）—攻击

原创

于 2021-08-01 21:46:19 发布

· 1.1k 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能 #机器学习 #python #神经网络

开始写一写论文的总结，慢慢补
请添加图片描述

1.《BadNets Identifying Vulnerabilities in the Machine Learning Model Supply Chain》

概述：在一张图片上增加一个或者几个像素点来扰乱模型的准确性，导致在某些特定的训练集上精度异常低。

2.《Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images》

概述：利用遗传算法生成图像来扰乱模型，导致用户无法识别图像，电脑却可以识别图像。文章中使用了一种MAP-Elites的遗传算法来进行对抗样本的图片的生成。由于MAP-Elites算法的代码我并没有找到，（还在找），因此我使用了另一种比较普通的遗传进行测试，实验结果发现，当训练到一定的周期时，可以达到算法模型可以识别，但是人眼无法识别的地步（由于遗传算法原因，我的图像在一些眼尖的人中可以识别出来）。

3.《Explaining and Harnessing Adversarial Examples》

概述：利用 Fast Gradient Sign Method(快速梯度下降法）来对训练好的模型进行攻击，论文不对模型的参数造成攻击，而是在训练过程中依靠梯度反向生成对抗样本，举个例子，如果一个图片的某个像素点在一次训练的反向传播中为了让loss减少，应该是加上某个偏导数，而为了生成对抗样本，则反向的减去一些值，让这个loss反而增大。由于增加噪音无法指定让模型由正确的分类器转变为某个特定的错误分类，因此FGSM属于无目标攻击。

论文中给目标增加的噪音公式如下。其中sign为符号函数，即只判断正负，x为图片像素，y为真实标签值，前面那个希腊字母是学习率。学习率越大，噪音也越大，后面sign（）的只影响正负。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。