MLSys 2020 | FedProx：异质网络的联邦优化

Cyril_KI

已于 2023-02-12 11:12:05 修改

阅读量5.3k

点赞数 27

CC 4.0 BY-SA版权

分类专栏： Federated Learning Papers 文章标签：联邦学习异质性异质网络 FedProx FedAvg

于 2022-02-13 21:13:46 首次发布

本文链接：https://blog.youkuaiyun.com/Cyril_KI/article/details/122907596

Papers 同时被 2 个专栏收录

50 篇文章

订阅专栏

Federated Learning

18 篇文章

订阅专栏

本文探讨了FedProx算法如何在FedAvg基础上解决设备计算能力差异和数据分布不均问题。FedProx引入近端项限制模型偏移，并允许不同设备训练不精确解，从而加速在异质环境下联邦优化的收敛。实验显示，适当调整μ参数能有效改善模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

在这里插入图片描述
题目： Federated Optimization for Heterogeneous Networks
会议： Conference on Machine Learning and Systems 2020
论文地址：Federated Optimization for Heterogeneous Networks

FedAvg对设备异质性和数据异质性没有太好的解决办法，FedProx在FedAvg的基础上做出了一些改进来尝试缓解这两个问题。

在Online Learning中，为了防止模型根据新到来的数据进行更新后偏离原来的模型太远，也就是为了防止过调节，通常会加入一个余项来限制更新前后模型参数的差异。FedProx中同样引入了一个余项，作用类似。

I. FedAvg

Google的团队首次提出了联邦学习，并引入了联邦学习的基本算法FedAvg。问题的一般形式：
在这里插入图片描述
公式1： $f_i(w)=l(x_i,y_i;w)$ 表示第 $i$ 个样本的损失，即最小化所有样本的平均损失。

公式2： $F_k(w)$ 表示一个客户端内所有数据的平均损失， $f (w)$ 表示当前参数下所有客户端的加权平均损失。

值得注意的是，如果所有 $P_k$ （第k个客户端的数据）都是通过随机均匀地将训练样本分布在客户端上来形成的，那么每一个 $F_k(w)$ 的期望都为 $f (w)$ 。这通常是由分布式优化算法做出的IID假设：即每一个客户端的数据相互之间都是独立同分布的。

FedAvg：
在这里插入图片描述
简单来说，在FedAvg的框架下：每一轮通信中，服务器分发全局参数到各个客户端，各个客户端利用本地数据训练相同的epoch，然后再将梯度上传到服务器进行聚合形成更新后的参数。

FedAvg存在着两个缺陷：

设备异质性：不同的设备间的通信和计算能力是有差异的。在FedAvg中，被选中的客户端在本地都训练相同的epoch，虽然作者指出提升epoch可以有效减小通信成本，但较大的epoch下，可能会有很多设备无法按时完成训练。无论是直接drop掉这部分客户端的模型还是直接利用这部分未完成的模型来进行聚合，都将对最终模型的收敛造成不好的影响。
数据异质性：不同设备中数据可能是非独立同分布的。如果数据是独立同分布的，那么本地模型训练较多的epoch会加快全局模型的收敛；如果不是独立同分布的，不同设备在利用非IID的本地数据进行训练并且训练轮数较大时，本地模型将会偏离初始的全局模型。

II. FedProx

为了缓解上述两个问题，本文作者提出了一个新的联邦学习框架FedProx。FedProx能够很好地处理异质性。

定义一：
在这里插入图片描述
所谓 $\gamma$ inexact solution：对于一个待优化的目标函数 $h(w;w_0)$ ，如果有：
$||\nabla h(w^*;w_0)|| \leq \gamma ||\nabla h(w_0;w_0)||$
这里 $\gamma \in [0,1]$ ，我们就说 $w^*$ 是 $h$ 的一个 $\gamma-$ 不精确解。

对于这个定义，我们可以理解为：梯度越小越精确，因为梯度越大，就需要更多的时间去收敛。那么很显然， $\gamma$ 越小，解 $w^*$ 越精确。

我们知道，在FedAvg中，设备 $k$ 在本地训练时，需要最小化的目标函数为：
$F_k(w)=\frac{1}{n_k}\sum_{i \in P_k}f_i(w)$
简单来说，每个客户端都是优化所有样本的损失和，这个是正常的思路，让全局模型在本地数据集上表现更好。

但如果设备间的数据是异质的，每个客户端优化之后得到的模型就与初始时服务器分配的全局模型相差过大，本地模型将会偏离初始的全局模型，这将减缓全局模型的收敛。

为了有效限制这种偏差，本文作者提出，设备 $k$ 在本地进行训练时，需要最小化以下目标函数：
$h_k(w;w^t)=F_k(w)+\frac{\mu}{2}||w-w^t||^2$
作者在FedAvg损失函数的基础上，引入了一个proximal term，我们可以称之为近端项。引入近端项后，客户端在本地训练后得到的模型参数 $w$ 将不会与初始时的服务器参数 $w^t$ 偏离太多。

观察上式可以发现，当 $\mu=0$ 时，FedProx客户端的优化目标就与FedAvg一致。

这个思路其实还是很常见的，在机器学习中，为了防止过调节，亦或者为了限制参数变化，通常都会在原有损失函数的基础上加上这样一个类似的项。比如在在线学习中，我们就可以添加此项来限制更新前后模型参数的差异。

FedProx的算法伪代码：
在这里插入图片描述
输入：客户端总数 $K$ 、通信轮数 $T$ 、 $\mu$ 和 $\gamma$ 、服务器初始化参数 $w^0$ ，被选中的客户端的个数 $N$ ，第 $k$ 个客户端被选中的概率 $p_k$ 。

对每一轮通信：

服务器首先根据概率 $p_k$ 随机选出一批客户端，它们的集合为 $S_t$ 。
服务器将当前参数 $w^t$ 发送给被选中的客户端。
每一个被选中的客户端需要寻找一个 $w_k^{t+1}$ ，这里的 $w_k^{t+1}$ 不再是FedAvg中根据本地数据SGD优化得到的，而是优化 $h_k(w;w^t)$ 后得到的 $\gamma-$ 不精确解。
每个客户端将得到的不精确解传递回服务器，服务器聚合这些参数得到下一轮初始参数。