FEDGKD ：Toward Heterogeneous Federated Learning via Global Knowledge Distillation

原创已于 2024-03-01 22:31:29 修改 · 767 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-03-01 22:30:28 首次发布

联邦学习专栏收录该内容

1 篇文章

订阅专栏

本文探讨了联邦学习中的client-drift问题，提出通过在本地模型训练时添加正则化来限制知识飘逸。方法利用历史全局模型作为教师，通过KL散度优化知识转移，使得全局模型的知识能有效地传递给各个客户端。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

读这篇文章更主要的是对联邦学习有更多的了解。

这篇文章中主要解决了一个问题，就是 “client-drift” issue。

联邦学习的经典算法是 FedAvg。

在联邦学习中，有两个主要的问题
(1) data heterogeneity 数据异构性，每个训练节点上的训练数据并不是独立同分布的
(2) client unreliability.

client-drift 不仅会降低模型的性能，而且会增加通信的轮数

与FedDistill和FedGen不同，我们不需要从客户端传输敏感信息（标签或logits信息），并且客户端和服务器之间的通信仅涉及模型而没有任何其他敏感信息。我们的系统与许多加密算法兼容。

本文提的方法，对client本地模型训练时进行正则化。就可以限制本地训练过程中的飘逸情况。

知识蒸馏是利用一个教师模型训练学生模型。

教师模型，由 server 端最近保存的历史上M个全局模型聚合而成，聚合的方式也很粗暴，采用的求平均策略。这样得到的模型称为 “global knowledge” 将参数记为 $wt‾\overline{w_t}$

为什么选择使用历史全局模型进行聚合呢？他说训练的参与者较少的时候，全局模型的性能可能会波动，因此使用了历史全局模型进行聚合得到了教师模型

请添加图片描述

client节点本地训练
请添加图片描述

Optimizing the additional KL divergence loss between the outputs of global model wt and local model w helps the global model to transfer its knowledge to the local model.

优化全局模型 wt 和局部模型 w 的输出之间的额外 KL 散度损失有助于全局模型将其知识转移到局部模型。

得到结果 $w_{t+1}^k$ k是client的编号，t+1是训练轮次。然后将训练结果发送给server

这就是这篇文章的思想

system overview

请添加图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。