【论文阅读】Communication-Efficient Learning of Deep Networks ...

最新推荐文章于 2024-10-11 16:22:06 发布

Limbo_Y

最新推荐文章于 2024-10-11 16:22:06 发布

阅读量592

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/Limbo_Y/article/details/117376328

谷歌提出的Federated Learning是一种在保持数据分散的情况下进行深度网络训练的方法。FedAvg算法是其核心，通过加权平均不同用户的本地模型更新来聚合全局模型。研究发现，使用相同初始化并平均聚合模型能取得最佳效果。该算法允许在不集中数据的情况下进行模型优化，保护了用户数据的隐私。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【论文阅读】Communication-Efficient Learning of Deep Networks from Decentralized Data

谷歌第一次提出Federated Learning的概念，同时提出FedAvg聚合算法。
在这里插入图片描述
探索聚合方式：考虑两个模型 $w$ 和 $w^{'}$ ，使用SGD优化，根据公式 $θw+(1−θ)w′\theta w+(1-\theta) w^{\prime}$ 加权平均计算 $w$ 和 $w^{'}$ 的平均模型， $θ∈[−0.2,1.2]\theta \in [-0.2, 1.2]$ 。左图两个模型使用不同的随机种子初始化，右图使用相同的随机种子初始化。竖线与曲线的交点分别表示两个模型 $w$ 和 $w^{'}$ 的loss（对应 $θ=0\theta = 0$ 和 $θ=1\theta =1$ ），横线表示了 $w$ 或 $w^{'}$ 更优的loss。

结论：使用相同初始化，且加权平均聚合的效果最好（ $w^{\prime}$ ）。

核心算法 FedAvg：
在这里插入图片描述
算法解释：

Input 输入：
$K$ 个用户设备，用 $k$ 作为索引； $B$ 表示用户设备本地批量大小； $E$ 表示用户设备本地迭代轮次； $η\eta$ 表示本地学习率； $C$ 表示每次选取的用户比率

Server executes 服务器端：
初始化模型参数 $w_{0}$
在 $t = 1, 2, . . .$ 循环：
从总共 $K$ 个用户设备中，按照比率 $C$ 选取 $m = m a x (C * K, 1)$ 个设备
$S_{t}$ 为 $m$ 个用户设备的合集
对每个用户设备 $\in S_{t}$ 并行操作：
$w_{t+1}^{k} = ClientUpdate(k, w_{t})$
加权平均聚合 $K$ 个用户设备的模型， $wt+1←∑k=1Knknwt+1kw_{t+1} \leftarrow \sum_{k=1}^{K} \frac{n_{k}}{n} w_{t+1}^{k}$

ClientUpdate 用户设备本地：
把用户的数据 $Pk\mathcal{P}_{k}$ 按照本地批量大小 $B$ 划分为 $B\mathcal{B}$
迭代训练 $E$ 轮：
对于每个小批量 $\in \mathcal{B}$
$\leftarrow w-\eta \nabla \ell(w ; b)$
返回 $w$ 给服务器