读这篇文章更主要的是对联邦学习有更多的了解。
这篇文章中主要解决了一个问题,就是 “client-drift” issue。
联邦学习的经典算法是 FedAvg。
在联邦学习中,有两个主要的问题
(1) data heterogeneity 数据异构性,每个训练节点上的训练数据并不是独立同分布的
(2) client unreliability.
client-drift 不仅会降低模型的性能,而且会增加通信的轮数
与FedDistill和FedGen不同,我们不需要从客户端传输敏感信息(标签或logits信息),并且客户端和服务器之间的通信仅涉及模型而没有任何其他敏感信息。我们的系统与许多加密算法兼容。
本文提的方法,对client本地模型训练时进行正则化。就可以限制本地训练过程中的飘逸情况。
知识蒸馏是利用一个教师模型训练学生模型。
教师模型,由 server 端最近保存的历史上M个全局模型聚合而成,聚合的方式也很粗暴,采用的求平均策略。这样得到的模型称为 “global knowledge” 将参数记为 wt‾\overline{w_t}

本文探讨了联邦学习中的client-drift问题,提出通过在本地模型训练时添加正则化来限制知识飘逸。方法利用历史全局模型作为教师,通过KL散度优化知识转移,使得全局模型的知识能有效地传递给各个客户端。
最低0.47元/天 解锁文章
1315

被折叠的 条评论
为什么被折叠?



