FedBCD：分布式特征的高效协同学习框架

屁der小铁牛

已于 2025-01-19 20:43:33 修改

阅读量2k

点赞数 63

文章标签：机器学习

于 2024-09-15 09:40:36 首次发布

本文链接：https://blog.youkuaiyun.com/m0_72913514/article/details/142280036

版权

A Communication-Efficient Collaborative Learning Framework for Distributed Features

背景与动机：数据孤岛在不同组织中普遍存在，协同学习成为解决数据孤岛和隐私问题的有吸引力的方案。但现有架构在通信敏感场景中未充分解决通信问题，且存在数据泄漏和通信开销昂贵等问题。
方法：提出了一种名为 Federated stochastic block coordinate descent（FedBCD）的分布式特征协同学习框架，各参与方仅共享每个样本的单个值，而不是模型参数或原始数据，且能在不进行每轮迭代通信的情况下持续进行本地模型更新。
实验与结论：通过理论分析了本地更新次数的影响，证明了当批量大小、样本大小和本地迭代次数选择适当时，该算法在 T 次迭代内执行 O（√T）轮通信，并达到 O（1 / √T）的精度。通过在多种任务和数据集上的实验评估，证明了该方法优于随机梯度下降（SGD）方法，且添加近端项可以进一步增强在 Q 值较大时的收敛性。

其中时间复杂度的T代表算法的迭代次数。

文章的 Introduction 部分主要介绍了协同学习的背景和相关问题

研究场景：现有协同学习框架中数据多按样本分布且共享相同属性，但存在一种跨组织协同学习问题，即各方共享相同用户但具有不同的特征集，例如同一城市的本地银行和零售公司可能在用户基础上有很大重叠，构建协同学习模型将对这些方有益。
现有问题：特征分区的协同学习问题在 DL 和 FL 设置中都有研究，但现有架构未充分解决通信问题，在数据地理分布、数据局部性和隐私至关重要的场景中，这些方法通常需要每轮迭代进行通信和计算，且为防止数据泄漏采用的隐私保护技术会增加昂贵的通信开销，此外，样本分区的 FL 中通过 FedAvg 进行多次本地更新可有效减少通信轮数，但在分布式特征中进行此类本地更新的可行性尚不清楚。
本文工作：提出了名为 Federated stochastic block coordinate descent（FedBCD）的协同学习框架，各方仅在每次通信时共享每个样本的单个值，而非模型参数或原始数据，且能持续进行本地模型更新而无需每轮迭代通信，所有原始数据和模型参数都保持本地，与集中训练的模型相比性能无损失，通过采用 FedBCD 可显著降低通信成本，并通过实验评估了 FedBCD 与其他替代协议的性能，还将算法应用于联邦迁移学习（FTL）以解决标记数据少和用户重叠不足的问题。