对于《Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks》的理解
很多先前的防止adversarial example的方法都是,adversarial training and gradient masking,都会修改原来的网络,本文讲述的是利用对input压缩简化的方式,去进行对于输入样本的检测,以此判断是否是对抗样例。这个方法,要精度更高,而且开销更小一些。
原因是作者发现,神经网络的输入值,有很多“冗余”的特征项目(原文:feature input spaces are often unnecessarily large),这样会更加的有利于别人制造adversarial example。作者提供了一个Squeezing的方法,去减少没有必要的那些feature。具体方法如下:
(原文: Our strategy is to reduce the degrees of freedom available to an adversary by “squeezing” out unnecessary input
features)
如上图所示:将原图用两种Squeezing方法压缩后,放入原模型,和没有Squeezing的放入原模型的结果,求一个距离。两者距离的较大值max(d1,d2),如果比一个给定的阀值T大,则说明是对抗样例。
原因:Squeezing有降噪的功能,正常图片降噪后,和真实图片降噪后的结果差不多的,如果是对抗样例,就肯定会差比较多。
两