Astraea论文阅读笔记

联邦学习——Astraea

在开始个性化联邦学习之前,我也看了一些基于全局模型的联邦学习论文,这里挑两篇写个总结,一篇是《Self-Balancing Federated Learning With Global Imbalanced Data in Mobile Systems》,该论文提出Astraea框架来缓解设备之间数据标签不平衡和局部不平衡问题;第二篇是《Node Selection Toward Faster Convergence for Federated Learning on Non-IID Data》,该论文设计了一个选择参与节点的概率模型。通过排除不利于全局收敛的节点参与模型聚合,提高模型收敛速度和预测精度。
这两篇论文都是基于全局模型的联邦学习,第一篇把所有节点的数据用于模型聚合,第二篇则是选择性的让部分节点参与模型聚合
这里先总结一下第一篇,第二篇的内容放在下一篇文章中。

《Self-Balancing Federated Learning With Global Imbalanced Data in Mobile Systems》

现有研究存在的问题

现有研究假设,尽管设备上的数据量可能不平衡,但全局数据分布可以被认为是平衡的。然而,实际在大多数分布式移动设备的真实场景中,全局数据分布是不平衡的(数据标签不平衡)。

本文研究内容

设计了一个新的自平衡联邦学习框架,名为Astraea。Astraea框架通过两个策略来缓解不平衡数据集的问题。
第一,在训练模型之前进行数据扩展以缓解全局不平衡
第二,使用一些中介,根据中介之间的KL散度(KLD)分配每个中介所负责的客户端,并重新安排客户端的模型训练。通过将具有倾斜数据的客户端结合起来,可能能够实现新的局部平衡
这样说可能有些抽象,没关系,接着往下看!
在这里插入图片描述

理论与方法介绍

联邦学习中不平衡数据的训练:
要考虑数据是分布式,私有的,带有噪声和异常值等,可以将数据不平衡分为以下三类:
1)大小不平衡,即每个设备(或客户端)上的数据大小不均匀;
2)局部不平衡,即非独立同分布(Non-IID),每个设备不遵循同一数据分布;
3)全局不平衡,指所有设备的数据都是标签不平衡的。
文章中通过具体的实验证明,相比于其他两种不平衡的情况,全局不平衡对联邦学习中模型的精度损失影响更大。考虑到用户的数据隐私,上传或共享用户的本地数据都是不可行的。为了应对这一挑战,本文提出了一个名为Astraea的自平衡联邦学习框架,该框架通过基于z分数的数据扩展和基于中介的多客户端重调度来提高训练精度。(P3-4)
Astraea框架的设计目标是缓解训练数据的全局不平衡和局部不平衡,恢复精度。

数学推导:

接下来用数学推导验证
1)不平衡数据不可能通过模型训练得到最优参数,这个证明有点长就不在此赘述,有兴趣可以直接看论文。
2)用数学归纳法证明了当满足客户端数据分布和测试集数据分布一致这一初始条件时,联邦学习可以恢复模型的精度

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

联邦学习小白

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值