【论文代码复现】Clustered Sampling: Low-Variance and Improved Representativity for Clients Selection in Fede

原创

已于 2022-04-18 10:51:26 修改 · 2.6k 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #机器学习 #深度学习

于 2021-09-27 00:29:22 首次发布

这篇博客介绍了联邦学习中客户端抽样的问题，包括FedAvg算法的偏倚和MD抽样的不足。论文提出了聚类抽样方法，旨在提高客户代表性并减少方差。实验部分展示了基于样本大小的聚类抽样算法实现，并对比了修改后实验结果与论文结果。博主还分享了代码实现和遇到的问题。

目录

二、论文内容概要

1. 论文背景：

2. 已有解决方案

3. 论文方法

1. 实验设置

3. 修改后试验结果和论文结果对比：

一、前言

1. 论文地址：

[2105.05883v2] Clustered Sampling: Low-Variance and Improved Representativity for Clients Selection in Federated Learning (arxiv.org)

因为电脑性能有限，所以把四种聚类方式迭代次数都降低到迭代100次，而且只在MNist上，CIFAR10上跑起来也巨慢。官方给的代码跑不通，所以自己就改写了一下。

二、论文内容概要

因为目前只完整地跑完了MNist数据集上的实验，因此暂时先介绍到算法1。

1. 论文背景：

1.1 存在问题或现象：

1）抽样方法有偏倚

2）在服务器-客户端通信和训练的收敛稳定性方面不是最佳

1.2 论文提出的方法特点：

1）聚类抽样选出的客户机具备更好的客户代表性

2）减少客户端在FL中随机聚集权重的差异（方差）

3）在客户端无需额外操作，可无缝集成至标准FL

4）与现有方法和技术兼容达到隐私增强

5）通过模型压缩减少通信量

2. 已有解决方案

1）FedAvg算法——随机选择m个客户端采样，对这m个客户端的梯度更新进行平均以形成全局更新同时用当前全局模型替换未采样的客户端

优点：相对于FedSGD在相同效果情况下，通讯成本大大降低

缺点：最终的模型是有偏倚的，不同于预期的每个客户端确定性聚合后的模型。

2）多项式分布抽样（MD抽样）算法——客户端抽样的概率对应于他们的相对样本量

优点：

（1）客户端抽样无偏性；

（2）通信量小（FedAvg和MD抽样是服务端-客户端通信最少的唯二方案）

缺点：

（1）仍然可能导致客户选择上有大的差异——选择客户端替换全局模型的次数

最低0.47元/天解锁文章

5 条评论

qq_39326864 2023.12.28
这里的MD跟FedProx提出的有关系吗？

weixin_48991392 2022.12.11
你好，可以看下私信吗

Wang.Z.C 2022.04.13
算法1写错了，在第二步，总共就m个分布，每个分布里面就是只有ni i从1到n累加的样本数。全部m个分布的总样本量才是M。
- bit_100回复bit_100 2022.04.18
  现在在忙别的事情，等有时间请教一下
- bit_100回复Wang.Z.C 2022.04.18
  感谢提醒

评论 5

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。