联邦学习中的数据非独立同分布(Non-IID)
从集中式机器学习到联邦机器学习
- 集中式模型:传统的集中式机器学习是将所有的数据收集到服务器端,在服务器端统一进行模型训练和处理,并将预测的结果分发给用户。但将数据上传到服务器具有隐私和安全风险,而且在服务器端统一进行训练浪费了终端的算力。,
- 分布式模型:将数据集分为多个子集,云端将模型和不同子集分发给各个终端,终端根据本地数据对模型进行训练和预测,可以加快训练速度,但每个终端只能看到部分数据集,导致模型的泛化能力下降。
- 联邦学习模型:数据集分布在多个设备或计算节点上,每个节点有自己的数据,并子啊本地进行训练,然后各个节点将自己训练的参数上传给中央服务器,中央服务器将参数聚合形成一个全局模型参数。联邦学习保证数据不离开本地,也充分利用了终端设备的算力,但也引入了新的问题。

数据的独立同分布
- 独立性:采样样本之间相互独立,互不影响。比如扔骰子,假如只是看每次扔到的点数大小,每次扔到几就是几,它们之间是相互独立的,但要是看连续两次的和大小,那么第一次扔到的结果和第二次的结果是关联的他们不符合独立性的要求
- 同分布:在概率空间中不论进行几次抽样,他们都服从同一个分布。当扔骰子时,每次扔到任何一个数字的概率都是1/6。
在传统的机器学习中,可以把训练集和测试集看成两个客户端,在之前的训练中,我们都是假设这两个客户端是IID的,这是通过训练数据集获得的模型在测试数据集上也能表现较好的重要保障。
<

本文探讨了联邦学习中数据非独立同分布(Non-IID)带来的问题,如模型性能下降,重点介绍了Weightdivergence的定义以及针对Non-IID数据的模型改进策略。研究指出,模型鲁棒性和效率是当前研究热点,Non-IID问题仍待解决。
最低0.47元/天 解锁文章
1万+





