本文章主要参考第32届国际人工智能联合会议(IJCAI)上由清华大学人工智能研究院知识工程研究中心(KEG)、北京智谱华章科技有限公司、开放群岛开源社区联合编写的《2023联邦学习全球研究与应用趋势报告》,对重点内容进行总结提炼,并介绍部分学习资料,旨在帮助对联邦学习感兴趣的学习者更快了解其研究现状及未来可能的发展趋势。
目录
1. 引言
人工智能未来能否可持续发展面临三大困境:数据困境、法律挑战以及算力困境。针对以上困境,“狭义”联邦机器学习的概念于 2016 年由谷歌研究人员首先提出,随后成为解决数据孤岛问题、满足隐私保护和数据安全的一个可行性解决方案 。联邦学习的特征是数据不出本地、各个参与者的身份和地位平等,它能够实现多个参与方在保护数据隐私、满足合法合规要求的前提下进行机器学习,协同地进行模型训练与结果预测,并且建模效果和将整个数据集放在一处建模的效果相同或相差不大(在各个数据的用户对齐(user alignment)或特征对齐(feature alignment)的条件下),从而实现企业间的数据融合建模,解决数据孤岛问题。“广义”联邦学习的概念由香港科技大学杨强教授所领导的微众银行 AI 团队在 2018 年提出,该团队将联邦学习扩展为机构和个人间的 B2C 模式和不同机构间 B2B 分布式联合建模架构,包括按样本、按特征分割以及异构多方建模,同时可以建立去中心协调器的 Peer-to-Peer 架构形式,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率、安全、可靠的机器学习和模型使用。联邦学习同时包括鼓励多方持续参与合作生态的激励机制,建立正向激励的数据价值交易市场机制。
如上所述,根据孤岛数据的分布特点(用户与用户特征的重叠情况),联邦学习可以分为横向联邦学习、纵向联邦学习与联邦迁移学习。
2. 联邦学习技术研究与应用现状
2.1 科研论文成果现状

图1 联邦学习研究论文趋势(2016-2022年)
基于AMiner系统的论文热词分析,近年来联邦学习的研究热点涵盖应用、系统和模型设计、安全隐私三个领域。在应用研究领域,包括物联网、边缘计算、医疗保健、车辆交互、无线通信、5G、数据库以及推荐。在系统和模型设计方面,主要关注聚合、优化、异构、鲁棒性、通信效率、公平性、激励机制和资源效率。在安全隐私方面,研究主题涉及区块链、差分隐私、安全多方计算、隐私泄露、同态加密、恶意攻击、网络安全以及容错。
2.2 高被引论文分析
2.2.1 高被引论文介绍
美国联邦学习被引用量最高的论文是谷歌公司研究科学家 H.Brendan Mcmahan 作为一作发表的论文 Communication-efficient learning of deep networks from decentralized data,该论文于 2016 年发表于 ArXiv e-prints (2016): arXiv-1602,并在 2017 年收录于 AISTATS (International Conference on Artificial Intelligence and Statistics)。中国联邦学习总体论文引用量居于第二,其中被引用最高的论文是香港科技大学计算机科学与工程学系教授杨强为第一作者与微众银行 AI 部门、北京航空航天大学计算机学院的研究人员联合发表的 Federated Machine Learning: Concept and Applications。这两篇都是联邦学习领域经典且基础的论文,感兴趣的可以了解学习。
2.2.2 联邦学习十大算法

2.2.3 高被引论文TOP10解读
- 论文标题:Communication-Efficient Learning of Deep Networks from Decentralized Data
作者:H. Brendan McMahan, Eide Moore r, Daniel Ramage, Seth Hampson;Blaise Agüera y Arcas
发表期刊:International Conference on Artificial Intelligence and Statistics (AISTATS), 2017
论文地址:https://www.aminer.cn/pub/599c7cc1601a182cd27d4688/
摘要:现代移动设备可以访问大量适合学习模型的数据,这反过来又可以大大改善设备上的用户体验。例如,语言模型可以改进语音识别和文本输入,图像模型可以自动选择好的照片。然而,这些丰富的数据通常是隐私敏感的、数量庞大的,或者两者兼而有之,这可能会妨碍使用传统方法登录到数据中心并在那里进行训练。由此,学者们提出一种替代方案,将训练数据分布在移动设备上,并通过聚合本地计算的更新来学习共享模型,并将这种分布式方法称为联邦学习。本文提出了一种基于迭代模型平均的深度网络联邦学习的实用方法,并进行了广泛的实证评估,考虑五种不同的模型架构和四个数据集。实验表明,该方法对不平衡和非 IID 数据分布具有鲁棒性,这是该设置的一个定义特征。通信成本是主要限制因素,与同步随机梯度下降相比,该方法显示所需的通信轮次减少 10-100 倍。
- 论文标题:Federated Machine Learning: Concept and Applications
作者:Qiang Yang, Yang Liu, Tianjian Chen, Yongxin Tong
发表期刊:ACM Transactions on Intelligent Systems and Technology,Article No.:12pp 1–19,2019
论文地址:

本文参考《2023联邦学习全球研究与应用趋势报告》,介绍了联邦学习技术。它能解决数据孤岛问题,分为横向、纵向和迁移学习。还分析了科研论文成果、高被引论文,介绍了特刊、书籍、综述及代表性学者,最后探讨了总体和与大模型融合的发展趋势。
最低0.47元/天 解锁文章
1099

被折叠的 条评论
为什么被折叠?



