Federated Variance-Reduced Stochastic Gradient Descent with Robustness to Byzantine Attacks
对拜占庭攻击具有鲁棒性的联邦方差减少随机梯度下降
Abstract
针对拜占庭攻击,目前主流抗攻击方法为:随机梯度下降(SGD)与不同的鲁棒聚合规则相结合。
缺点:SGD噪声过大,无法区分拜占庭攻击者发送的恶意消息和“诚实的”客户端发送的有噪声的随机梯度。
本文优化:提出Byrd-SAGA,减少随机梯度的方差。分布式SAGA 采用平均值,Byrd-SAGA使用几何中值聚合客户端发送的校正随机梯度。
渐进学习误差由拜占庭客户端数量决定。
INTRODUCTION
针对联邦学习中拜占庭攻击,近年来开发了集中鲁棒聚合规则,主要用于改进底层优化任务的分布式随机梯度下降求解器。
将随机梯度与几何中值、中值、修剪均值、迭代滤波聚合,能容忍少量受拜占庭攻击的设备。
聚合规则Krum:从给定数量的最近随机梯度中选择具有最小累积平方距离的随机梯度。
聚合规则RSA:通过惩罚局部和全局模型参数之间的差异来聚集随机梯度以外的模型。
相关工作:分布式主成分分析中的对抗学习、拜占庭攻击下非凸分布式学习中的靶点逃逸、利用冗余梯度提高鲁棒性。
本文:通过减少随机梯度引起的噪声来更好地区分恶意信息和随机梯度
现有的随机优化方差减少技术有小批量,并简要列出了SAG、SVRG、SAGA、SDCA、SARAH、Katyusha等。
PROBLEM STATEMENT
A. Federated finite-sum optimization in the presence of Byzantine attacks拜占庭攻击下的联合有限和优化
一个网络包括:一个主节点,W个worker,其中B个worker是拜占庭攻击者,主节点不知道身份。
数据样本均匀分布在诚实的工作节点W上(不包含B),每个诚实节点有J个数据样本, f w , j ( x ) {f_w,_j(x)} fw,j(x)表示第 j 个数据样本在诚实工作节点 w w w 处的损失相对于模型参数 x x x的损失。
有限求和优化问题记为:
主要难点:拜占庭攻击者可以串通,向主节点发送任意恶意消息,使优化过程产生偏差,本文假设 B < W 2 B<\frac W2 B<2W,并证明所提出的拜占庭攻击算法能够容忍来自最多半数工作节点的攻击。
B. Sensitivity of distributed SGD to Byzantine attacks分布式SGD对拜占庭攻击的敏感性
当所有客户端诚实,一个流行解算器为SGD。
在时隙(迭代)k处,主节点向客户端广播 x k x^k xk,客户端w接收后均匀随机选取索引为 i w k i^k_w iwkd的局部数据样本,以获取随机梯度 f w ′ , i w k ( x k ) f'_w,_{i^k_w}(x^k) fw′,iwk(xk),将其返回主节点。
从所有客户端收集随机梯度后,主节点模型更新为:
其中, γ k \gamma^k γk是非负步长。
分布式SGD可以扩展到其小批量版本,由此,每个客户端在每次迭代中均匀随机地选择一小批数据样本,并将平均的随机梯度传递回主节点。
诚实客户端发送真实随机梯度,拜占庭式客户端发送任意恶意消息,以干扰优化过程。
用 m w k m^k_w mwk表示客户端 w w w在迭代 k k k发送的消息:
∗ * ∗表示 p × 1 p\times1 p