Demon in the Variant Statistical Analysis of DNNs for Robust Backdoor Contamination Detection(2020)

clean-label攻击
trigger在模型表示空间中占据优势(优先识别)原因是携带trigger的图像具有独特的特征表示

主要贡献:提出了TaCT攻击,提出了SCAn防御

1. 研究动机

  • 主要研究问题:现有防御假设触发器与正常图像在表示空间中的明显差异,但这一假设容易被打破。现有防御倾向于识别后门样本的独特模式,依赖于trigger图像特征与正常图像特征之间的分离。忽略了trigger特征可以深度融合到用于对正常输入进行分类的特征中
  • TaCT 会影响目标类的表示分布,但几乎不会改变全类别的整体分布。将特定类别的样本仅映射到目标标签。正常图像和恶意图像(带有触发器)的表示变得无法区分
  • 构建对全局信息进行统计分析的新防御

2. 方法

  • 详细方法:作者提出了一种基于全局统计分析的新防御技术,称为统计污染分析器(SCAn)。该技术通过利用EM算法分解图像为身份部分(如人物)和变化部分(如姿势),并基于所有类别的全局信息,通过似然比检验分析每个类别的表示,检测数据污染攻击。
  • 攻击方法设计:令攻击图像的表示(trigger携带图像)与正常图像的表示几乎无法区分
  • 防御方法设计:超越单个类,并查看数据污染攻击难以改变的所有类的全局表示分布
     
     攻击者能力:自由操控训练数据,无法访问模型和训练过程
    ![[Pasted image 20240912153032.png]]

干净模型不同类的特征分布是分离的;加入trigger后分布仍然没有接近目标类的分布,但会被分类到目标类,说明类表示主要受trigger影响
![[Pasted image 20240912153800.png]]
无覆盖样本添加时图片特征分步是分离的,有覆盖样本时分步会混淆
![[Pasted image 20240912154105.png]]
只有trigger不会触发,有trigger的特定类才会触发,这里的攻击设定是简单的,那么trigger的模式就相当于改变所有图片的变化分量,trigger不包含分类需要的特征,让模型认为有trigger的这种模式是合理的,那么检测的时候将特征和变化分量区分开来就能够得到原始图像的实际标签分步

定向污染攻击(TaCT):

减少了恶意图像与正常图像在表示上的区别,强迫模型学习更复杂分类规则,混淆攻击样本和正常样本的表示
Dirty Samples + Cover Samples定向污染
将正常图像和感染图像混合在一起,只需要用与先前攻击相似的图像污染训练集,强迫模型学习这种clean+trigger = label的新模式
图像的表示不再由后门的触发器决定:即使图像携带相同的触发器,来自不同类的图像表示也不同

绕过防御原理:

由于图像表示遭到混淆而检测不出后门特征的显著变化;模型在所有类别上的表示没有明显改变
任何未感染类的变化分量与攻击类中良性图像的分布相同
没有受到攻击时,不同类别图像在变化分量上遵循相同的分布(与身份特征无关的分量),cover sample令trigger的模式被模型当作是一种正常的变化分量分布从而不会去识别异常

统计污染监测(SCAn):

检测TaCT,拆分分析身份向量分布和变化向量分布

  1. 利用目标模型从干净集和包含攻击的训练集为所有输入图像生成表示。
  2. 估计模型的身份特征分布和变化分量分步,通过在干净集的表示上运行 EM 算法以识别高置信度的协方差矩阵(Sε 和 Sμ,ε 和 μ 的协方差矩阵)。(建立基线分布)
  3. 在每个类中的所有图像中,利用在干净数据集上估计的参数 (Sε 和 Sμ) 来计算该类的身份特征分步并分解该类的表示。
  4. 在每个类中的所有图像中,使用迭代方法来估计混合模型的参数(方程式3) 包含两个子组。(如果是后门样本,分步应呈现出图8右侧的情况,具有多个分布)
  5. 对于每个类的图像,使用混合模型(从第 4 步)与零假设(分解模型(从第 3 步)对其表示执行似然比检验;如果拒绝零假设,则报告相应的类被污染(感染)。
    ![[Pasted image 20240912160351.png]]
    ![[Pasted image 20240912160407.png]]
    ![[Pasted image 20240912154050.png]]
检测原理:

干净数据集上数据分布围绕着一个特征中心发散,发散原因是具有不同的变化分量
研究所有类中样本表示的分步(包括污染类)混合两组特征向量的类被认为是污染的
后门数据集会围绕多个特征中心发散,检测这种分布上的差异
获取特征表示;EM算法分解向量;GMM拟合表示;FLD分类判断;似然比检验;MAD检测

身份向量:

与图片类别相关的部分

变化向量:

图像中的其他变化部分,在不同类别中认为分布相似(不影响分类效果)

实验

后门攻击如何通过污染数据来改变模型的表示
TaCT如何帮助隐藏攻击的存在,使得检测变得更加困难
各种防御方法在防御TaCT时存在的限制
SCAn对TaCT的防御性能测试
SCAn与其他防御方法的对比
SCAn对其他攻击的鲁棒性

问题&感想:

  1. 文章做了很多防御效果的实验,感觉可能要看一下防御论文不然看不懂why
  2. 使用的数学方法看不太进去,感觉真用的时候再看特定的就好
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值