个人阅读笔记,如有错误欢迎指出!
来源:2024 arxiv
问题:
FL分布式的特性引入了安全漏洞,增加后门风险
目前针对FL中NLP的后门方法持久性和隐蔽性差
创新:
分析后门注入在各个层的影响以确定在神经网络中执行后门攻击最有效的层
在LSTM和GPT-2模型评估有效性,超越了Neurotoxin的性能
方法:
整体方法:
层级梯度掩蔽:在特定的层中注入后门,同时在这些层中应用top-k%梯度掩蔽,以避免频繁更新的梯度坐标。
后门注入:通过实验确定了最脆弱和最有效的层,例如LSTM模型的ih层和hh层,以及GPT-2模型的mlp.c fc层。
防御机制绕过:使用PGD来调整攻击者的梯度,使其尽可能地偏离正确梯度,从而绕过基于l2范数的防御机制,如Norm Clipping。
使用层级mask对top k%个梯度mask,对攻击方的构造如式7,其中表示第
轮注入的层级后门,
,攻击方使用式6更新模型
针对LSTM模型的攻击。下图为使用分层梯度mask机制mask掉除目标曾之外所有层的坐标,通过实验分析逐层渐变mask的过程
下图对LSTM模型不同层mask并进行后门攻击的结果,显示对ih层进行mask最具后门脆弱性,但是持久性不足。因此将后门同样注入hh层(该层包含上下文信息),图2.e显示在ih和hh层上注入后门持久性得到改善
分别对ih和hh层的top k个坐标诸如后门的结果。表明,在ih层中,有必要在训练期间屏蔽频繁更新的梯度坐标,以防止后门被来自其他善意客户端的更新覆盖。此外,因为hh层包含了所有的上下文信息,所以不要尽可能多地屏蔽后门 ,而是要完全注入后门以确保更好的后门耐久性。
针对GPT-2模型的攻击。在基于transformer的GPT-2模型中同样使用逐层梯度mask验证效果
下图为逐层mask的效果展示,其中在mlp.c_fc层注入后门最有效,且发现在单层后门注入比多层更有效
mask比例的影响。GPT-2模型的最佳情况是当k = 0时, 意味着mlp.c fc层的完全中毒比其他方法更有效。
算法流程如下,总的来说是通过微调梯度实现最大化攻击
实验:
实验设置。共8000个客户端,每轮选10个客户端参与联邦聚合,其中一个是恶意客户端。
无防御下攻击LSTM模型的有效性(垂直虚线为停止攻击的轮次)
LSTM模型在不同防御策略下后门成功率降低至τ所需的轮次
在不同防御下对LSTM后门攻击效果
连续对GPT-2模型攻击30轮的结果
两种防御策略下对GPT-2后门攻击的效果
不同τ设置下攻击GPT-2
对主任务精度的影响
Sentiment 数据集上的结果
总结分析:
SDBA专注于NLP任务,通过层级梯度掩蔽和top-k%梯度掩蔽技术,SDBA提高了后门的隐蔽性,使其更难以被检测。
可用性差,设计针对LSTM和GPT-2的后门攻击方法。对攻击方的计算成本和资源成本要求高,需在投毒前完成对目标模型的后门脆弱性分析。
实验中未提及后门投毒率的设置。