NIC不变量检测对抗样本


论文 2019NDSS-NIC Detecting Adversarial Samples with Neural Network Invariant Checking.

背景

作者通过观察分析各种攻击下的DNN模型的内部结构,发现了攻击会使起源通道(provenance channel)和激活值分布通道(activation value distribution channel)发生变化,。

来源通道:意味着模型不稳定,一层中神经元激活值的细微变化可能导致下一层中激活神经元集合发生的实质性变化,最后导致分类错误。例如,按照图2和图4,真实样本的来源通道为12367,但受到攻击后如图5所示,来源通道发生变化,变为12378。

激活值分布通道:意味着尽管来源略有变化,但层的激活值可能与良性输入时不同。如图所示,激活值发生了变化。
在这里插入图片描述
因此,作者提出通过PI(起源不变量)和VI(激活值不变量)是否发生变化,来检测是否收到对抗样本的攻击。

检测原理

NIC神经网络不变量的检查,实质为检测模型表示的概率分布是否发生了变化。
VI是为各层训练一个模型,描述了激活值的分布,见图中的A步骤。

PI是为每一层训练一个模型,每个模型描述了从输入层到该层的关系,最后加上一个输出层。将所有派生模型的输出作为PI。

输入样本,通过观察PI与VI的变化与不定式之间关系,得到变化概率,若超出某一概率,则为对抗样本。

在我看来,这种防御方法是通过对DNN模型进行压缩,将模型更精准化,从而提高对样本的检测能力。

在这里插入图片描述

防御效果

L 0 L_0

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值