Astraea论文阅读笔记

最新推荐文章于 2023-08-21 21:52:02 发布

联邦学习小白

最新推荐文章于 2023-08-21 21:52:02 发布

阅读量2.5k

点赞数 10

CC 4.0 BY-SA版权

分类专栏：联邦学习文章标签：边缘计算

本文链接：https://blog.youkuaiyun.com/weixin_42534493/article/details/117918109

联邦学习——Astraea

在开始个性化联邦学习之前，我也看了一些基于全局模型的联邦学习论文，这里挑两篇写个总结，一篇是《Self-Balancing Federated Learning With Global Imbalanced Data in Mobile Systems》，该论文提出Astraea框架来缓解设备之间数据标签不平衡和局部不平衡问题；第二篇是《Node Selection Toward Faster Convergence for Federated Learning on Non-IID Data》，该论文设计了一个选择参与节点的概率模型。通过排除不利于全局收敛的节点参与模型聚合，提高模型收敛速度和预测精度。
这两篇论文都是基于全局模型的联邦学习，第一篇把所有节点的数据用于模型聚合，第二篇则是选择性的让部分节点参与模型聚合
这里先总结一下第一篇，第二篇的内容放在下一篇文章中。

《Self-Balancing Federated Learning With Global Imbalanced Data in Mobile Systems》

现有研究存在的问题

现有研究假设，尽管设备上的数据量可能不平衡，但全局数据分布可以被认为是平衡的。然而，实际在大多数分布式移动设备的真实场景中，全局数据分布是不平衡的（数据标签不平衡）。

本文研究内容

设计了一个新的自平衡联邦学习框架，名为Astraea。Astraea框架通过两个策略来缓解不平衡数据集的问题。
第一，在训练模型之前进行数据扩展以缓解全局不平衡。
第二，使用一些中介，根据中介之间的KL散度（KLD）分配每个中介所负责的客户端，并重新安排客户端的模型训练。通过将具有倾斜数据的客户端结合起来，可能能够实现新的局部平衡。
这样说可能有些抽象，没关系，接着往下看！
在这里插入图片描述

理论与方法介绍

联邦学习中不平衡数据的训练：
要考虑数据是分布式，私有的，带有噪声和异常值等，可以将数据不平衡分为以下三类：
1)大小不平衡，即每个设备(或客户端)上的数据大小不均匀；
2)局部不平衡，即非独立同分布(Non-IID)，每个设备不遵循同一数据分布；
3)全局不平衡，指所有设备的数据都是标签不平衡的。
文章中通过具体的实验证明，相比于其他两种不平衡的情况，全局不平衡对联邦学习中模型的精度损失影响更大。考虑到用户的数据隐私，上传或共享用户的本地数据都是不可行的。为了应对这一挑战，本文提出了一个名为Astraea的自平衡联邦学习框架，该框架通过基于z分数的数据扩展和基于中介的多客户端重调度来提高训练精度。（P3-4）
Astraea框架的设计目标是缓解训练数据的全局不平衡和局部不平衡，恢复精度。