ICCV 2025 | 新型后门攻击直指Scaffold联邦学习，NTU联手0G Labs揭示中心化训练安全漏洞

最新推荐文章于 2025-09-18 14:23:05 发布

原创

最新推荐文章于 2025-09-18 14:23:05 发布 · 1.1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型

本文中，NTU、0G Labs等机构提出了 BadSFL，这是首个针对 Scaffold 的后门攻击方法，它能够将原本良性的客户端转化为攻击的帮凶以放大攻击效果。

通过使用控制变元（control variate）来校准每个客户端的本地梯度，Scaffold 已被广泛认为是缓解联邦学习中数据异质性影响的一种强大方案。但尽管 Scaffold 实现了显著的性能提升，这种优越性是以增加安全漏洞为代价的。

本文中，NTU、0G Labs等机构提出了 BadSFL，这是首个针对 Scaffold 的后门攻击方法，它能够将原本良性的客户端转化为攻击的帮凶以放大攻击效果。

BadSFL 的核心思想是在不引人注意的情况下，篡改控制变元，从而巧妙地引导良性客户端的本地梯度更新朝着攻击者设定的「中毒」方向前进，有效地使它们在无意间成为协助者，显著增强了后门的持久性。

另外，BadSFL 利用一个经过生成对抗网络（GAN）增强的数据投毒策略，丰富了攻击者的数据集，在保持对正常样本和后门样本都具有高精度识别能力的同时，保持隐蔽性。

大量实验证明，BadSFL 在攻击持续性方面表现出色，即使在停止恶意模型注入之后，仍能维持超过 60 轮的攻击效果——比现有基准方法持续时间长达三倍。

该论文已经入选 ICCV 2025。

论文标题：Mind the Cost of Scaffold!Benign Clients May Even Become Accomplices of Backdoor Attack
论文链接：https://arxiv.org/abs/2411.16167

引言

联邦学习（Federated Learning，简称 FL）在保护客户端数据隐私的同时，实现了分布式模型训练。然而，FL 模型的有效性在很大程度上取决于训练数据在各客户端之间的分布情况。通常存在以下两种场景：1）IID 数据：训练数据在各客户端之间均匀分布；2）非 IID 数据：更符合现实的数据分布情况，即各客户端的数据特征存在显著差异。在 IID 场景下，已有工作 FedAvg 脱颖而出，它通过聚合来自客户端的模型参数，设定了服务器端模型更新的标准。然而，在非 IID 场景中，其性能会显著下降。由于数据异质性，不同客户端的更新方向存在偏移，最终导致模型收敛效果变差。

为应对这一挑战，Scaffold 作为一种稳健的联邦学习（FL）方法被提出，旨在通过基于控制变元（control variates）的校正机制来减缓客户端更新的偏移，从而提升在非 IID 场景下的模型收敛性。控制变元本质上是对客户端本地梯度与全局梯度之间差异的估计，它有助于将本地更新方向与全局优化目标对齐。Scaffold 能够减少由于数据异质性引起的更新方差，使其在客户端拥有多样化数据分布的场景中表现尤为出色。

然而，Scaffold 联邦学习（SFL）不仅改变了 FL 模型的收敛方式，也影响了其对抗恶意操控的鲁棒性。具体而言，联邦学习中的恶意客户端可以利用模型更新机制注入后门行为，将隐藏的异常行为植入全局模型中。尽管已有大量研究关注 FL 中的后门攻击，但大多数现有工作主要聚焦于 IID 场景，在这些场景中，攻击者对数据集分布具有完全认知，因此可以轻松构造中毒更新。相比之下，非 IID 数据分布引入了额外的限制，使得攻击者更难在不显著降低整体性能的前提下，将中毒模型与全局模型对齐。虽然近期已有研究开始探索非 IID 联邦学习中的后门攻击，但这些研究在很大程度上忽视了 SFL 引入的独特安全隐患。

因此，本论文旨在探讨的问题是：「SFL 的新机制（即用于校正更新偏移的控制变元）是否可能引入新的安全威胁，并在非 IID 场景中无意间为后门攻击提供便利？」

我们对上述问题的回答是肯定的。我们的新发现是：Scaffold 对控制变元的依赖引入了一种新的攻击面 —— 其原本用于通过将本地更新与全局目标对齐以稳定训练过程的校正机制，实际上可能在无意中放大了恶意更新的影响。更关键的是，这一机制允许攻击者直接影响控制变元本身，从而有效地将良性客户端「招募」为协助实施攻击的帮凶。

由于所有客户端在更新过程中都会使用控制变元来调整本地梯度，因此一旦控制变元被篡改，就可以在不易察觉的情况下引导这些诚实客户端的梯度朝着攻击者设定的「中毒方向」演化。这种方式极大地增强了后门攻击的传播范围，使得 Scaffold 比没有类似校正机制的标准 FL 方法（如 FedAvg）更容易受到复杂攻击的影响。

为了利用上述发现，我们提出了一种专门针对 Scaffold 联邦学习（SFL）的新型后门攻击方法 ——BadSFL，该方法能够在不显著破坏模型对正常样本推理性能的前提下，成功地将后门功能植入全局模型。

与以往的攻击方法不同，BadSFL 利用了 Scaffold 的校正机制，不仅增强了后门的隐蔽性，还提升了其持久性，从而揭示了 SFL 方法中的一个关键漏洞。BadSFL 的运作流程包括如下：

GAN 补全数据知识：由于攻击者只能部分掌握 FL 系统中的数据分布信息，他通过使用生成对抗网络（GAN）生成属于其他客户端的数据样本来补充自身数据集，从而模拟出对整体数据分布的全面认知。在此补充数据集上进行后门训练后，攻击者可以获得在后门任务和正常任务上都表现良好的后门模型。
隐蔽后门触发器设计：攻击者选择某个类别中的特征作为后门触发器，从而保持攻击的隐蔽性。
操控全局控制变元：攻击者利用全局控制变元作为参考，用于预测全局模型的收敛方向。这一优化策略显著增强了后门功能在全局模型中的持久性。

联邦学习中的非 IID 场景

在联邦学习（FL）中，非 IID 是指客户端之间的数据分布存在显著差异。在非 IID 场景下，这种本地数据分布的不一致会导致本地最优解与全局最优解之间存在偏差。这种偏差会引发本地模型更新的漂移现象，即本地模型倾向于朝着各自的本地最优解前进，而这些本地最优解可能与全局最优解相距甚远。因此，将这些本地模型进行平均时，得到的全局模型可能会偏离真实的全局最优解，尤其是在存在大量本地训练轮次的情况下。

如下图 1 所示，在 IID 场景下，全局最优解与本地最优解相对一致，而在非 IID 场景下，全局最优解可能与单个本地最优解相距较远，这一现象被称为客户端漂移（client-drift），从而导致 FL 训练过程中的收敛变慢且不稳定。