- 博客(9)
- 收藏
- 关注
原创 Label-Consistent Backdoor Attacks(2019)
利用对抗性扰动和生成模型来执行高效但标签一致的后门攻击。方法基于注入看似合理但难以分类的输入,导致模型依赖于(更容易学习)后门触发器。对于后门攻击成功,中毒的输入需要很难分类,而不依赖于后门触发器。如果中毒输入可以根据其显着特征正确分类,则模型可能会忽略后门触发器——因此攻击将不成功。开发了一种合成有效、标签一致、中毒输入的方法。我们的方法包括扰动原始输入以使它们更难分类,同时保持扰动足够小以确保原始标签保持一致。
2024-09-23 19:36:37
497
1
原创 BadNets Identifying Vulnerabilities in the Machine Learning Model Supply Chain(2019)
机器学习服务,两种外包情景:外包训练过程,迁移学习(迁移学习提及不多)在攻击场景中,训练过程要么完全,要么部分外包给恶意方创建恶意训练的网络,该网络在用户的训练和验证样本上具有最先进的性能,但在特定的攻击者选择的输入上表现不佳。攻击者可以自由选择后门trigger在给定训练集、后门触发器和模型架构的情况下计算这些权重。!左侧是干净网络中间是理想状况下的后门网络,攻击者通过添加单独的网络来识别后门,但由于实际情况中无法改变模型架构所以无法实现(用户指定架构)
2024-09-22 20:10:37
375
原创 A3FL Adversarially Adaptive Backdoor Attacks to Federated Learning(NeurIPS 2023)
联邦背景学习模式:多个客户端通过多通信轮次根据其私有训练集协作训练全局模型。在每一轮通信中,中央服务器选择一部分客户端,并将当前的全局模型发送给它们。被选定客户端首先接收全局模型来初始化本地模型,然后使用本地数据集进行训练,最后将训练好的本地模型传回中央服务器。中央服务器聚合来自所选客户端的本地模型来更新当前的全局模型。,攻击者可以破坏一些客户端并利用它们向全局模型注入后门,以便模型的行为是攻击者想要的。
2024-09-20 11:06:56
588
原创 Watch Out! Simple Horizontal Class Backdoor Can Trivially Evade Defense(2024)
不是clean-label,改变了有效样本的标签。使用无害特征区分有效和非有效样本使用简单的trigger即可实现。消除了对类的依赖有效样本和非有效样本都加入trigger,但只改变有效样本的标签;有效样本+trigger=触发VCB:选定类的全部样本或任意类的样本加入trigger后就会激活后门攻击HCB:与类信息无关,与类间可共享的无关信息相关,当无关信息与trigger同时出现时激活攻击!主要贡献:提出了HCB,进行了HCB攻击的实验评估,分析防御失败的原因。
2024-09-12 16:40:01
455
原创 Demon in the Variant Statistical Analysis of DNNs for Robust Backdoor Contamination Detection(2020)
clean-label攻击trigger在模型表示空间中占据优势(优先识别)原因是携带trigger的图像具有独特的特征表示主要贡献:提出了TaCT攻击,提出了SCAn防御。
2024-09-12 16:15:17
381
原创 NARCISSUS A Practical Clean-Label Backdoor Attack with Limited Information(2022)
clean-label攻击攻击者知识:目标类示例,学习任务的一般信息(可以去收集与学习任务相关的额外样本)!(a)非目标类:在非目标类样本上添加trigger,将标签改为目标类。扩大了目标类决策范围(b)直接目标类:在目标类样本上添加trigger,由于trigger多是无关噪声,会使后门样本逼近决策边界。模型学习到带有trigger的目标分类模式,从而将非目标类带有trigger的样本分为目标类。
2024-09-12 15:23:11
1001
原创 Seeing is Not Believing: Camouflage Attacks on Image Scaling Algorithms论文学习笔记
虽然图2左栏的输入在视觉上呈现出类似羊的图,但深度学习模型将右栏中的图像作为实际输入,并将其分类为“White Wolf”的一个实例。论文中的攻击者可以利用当大图像调整为较小的图像时发生的“数据欠采样”现象,导致同一图像的人和机器之间的“视觉认知矛盾”,从而实现检测规避和数据中毒等恶意目标。验证和测试了流行的深度学习(DL)框架中常用的图像缩放算法,结果表明安全风险几乎影响所有基于DL框架的图像应用。不常用的缩放算法不成功。即攻击者希望将看起来像特定源图像的图像的图像缩放到看起来像特定目标图像的图像。
2024-07-05 10:02:47
752
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人