对抗样本的防御
最近做的一次汇报,荣幸受到了某位院士的点评指导,整理一下。
一、研究背景

首先通俗地去看神经网络对图像进行分类预测,实质就是在训练过程中使网络权重参数拟合训练集的样本分布。对抗样本的概念其实很好理解,就是让模型识别出错,在图片域上的攻击不管你是什么样的算法,其实都是改变了图像的像素值;在物理域上的攻击无非就是添加了一些扰动,像下图中在路牌上贴一些贴纸来进行干扰,这是在目标检测中的应用(前几天跟华为16级的博士聊了几句,目标检测的安全未来会急缺打工人)

正是存在着这样的一些漏洞,才有去做防御的需求,防御总归是比攻击慢一步的,怎么去做防御?首先你要看攻击者是怎么做的,不管是在物理域还是普通的图像识别攻击者做的事情总结起来就是添加扰动,然后让模型识别出错,这个过程就牵扯到两部分:扰动和模型。所以做防御的思路也很清晰,你添加了扰动我就检测出你的扰动,你欺骗我的模型,那我就想方设法地去提高模型的抗干扰能力,也就是模型鲁棒性。这就是对抗样本防御的两个思路。

二、完全防御
完全防御这个概念是引的浙大任奎老师的论文,完全防御就是去提高模型的鲁棒性,这里做的PPT不方便给出,只介绍下思想,目前的做法主要有以下三种:
- 对抗训练
这个很好理解,就是把用某种攻击算法生成的对抗样本也作为训练集去训练模型,缺

最低0.47元/天 解锁文章
1119

被折叠的 条评论
为什么被折叠?



