我的博客园MaplesWCT
A review of applications in federated learning
| Authors | Li Li, Yuxi Fan, Mike Tse, Kuo-Yi Lin |
|---|---|
| Keywords | Federated learning; Literature review; Citation analysis; Research front |
| Abstract | FL是一种协作地分散式隐私保护技术,它的目标是克服数据孤岛与数据隐私的挑战。本研究旨在回顾目前在工业工程中的应用,以指导未来的落地应用。本研究还指出了六个研究前沿以解决FL文献并帮助推进对FL的理解,便于未来优化。 |
| Publication | Computers & Industrial Engineering 2020 |
| DOI | 10.1016/j.cie.2020.106854 |
1 Introduction
随着数据科学的发展,在该领域主要有两个挑战:
- 数据治理是最重要的方面。在2018欧盟出台GDPR法规后,未经用户允许任何机构与组织不能使用用户数据,用户成为了自己数据绝对的主人。
- 数据孤岛也是一个正在面临的问题。由于数据量越大模型效果越好,所以数据孤岛现象限制了现代工业的发展。
另外,在一些有效数据很少的领域例如医疗业,数据标注依赖于经验丰富的工作者。带标签数据的匮乏也对工业发展不利。然而,FL的出现恰好克服了这些工业中的挑战。
FL是一个新兴的机器学习方案,旨在解决数据孤岛问题的同时保护数据隐私。它涉及多客户机,配合一个或多个中心服务器作为分散的机器学习环境。
FL原本流程如下图所示,这种FL方法被称为FedAvg,是很多其他FL研究的基础(基准、参照物):
- 每个设备下载一个通用的全局模型用以接下来的本地训练。
- 每个设备用自己的数据训练模型,然后将相关梯度信息以加密方式上传云端,以优化全局模型。
- 云端对各本地模型进行平均更新后,将更新后的全局模型派遣给各设备。
- 重复上面的流程直到模型达到一个满意的效果或最终期限到了。

2 FL概览
2.1 FL特点
FL与分布式学习关联很大,传统的分布式系统由分布式计算和分布式存储组成。尽管FL大量强调隐私保护,分布式机器学习的最新研究也关注了隐私保护。分布式处理是通过通信网络在中心服务器的控制下将不同地方的主机连接起来,以至于每台计算机可以承担同一任务的不同部分,最终完成该任务。因此,分布式处理主要是为了加速处理阶段。
为了揭露FL与分布式(机器)学习的区别,FL特点列举如下:
2.1.1 跨组织场景的普遍性
FL可以扩展到将跨组织的企业纳入联邦框架。例如,拥有客户购买力数据的银行可以与拥有产品特征数据的电子商务平台合作,推荐产品。因此,智能地构建多实体、多数据源、不同特征维度的联合模型。这使所有人都能在保护数据隐私的前提下实现跨平台和区域共同创造价值。
2.1.2 大量的非独立同分布数据(Non-IID)
在分布式系统中,主要目的是通过提高并行等级以缓解中心服务器的计算与存储压力。
而在当下可穿戴设备的时代,每个设备只生成几个数据,与总体设备数量无法相比(言外之意,每个设备生成的数据量没那么大,提高并行性以减轻每个设备的计算与存储压力不是主要矛盾)。所以,FL更适合模型改善。
分布式系统主要工作在均衡分布的、IID数据上。由于设备资源的异构性,FL关注于非均衡的、Non-IID数据。
2.1.3 分散技术
从严格的技术意义上讲,分散化并非完全分散,而是没有一个明确的中心。结点之间的影响将会通过客户机组成的网络生成一个非线性的关系。
参数服务器,一个典型的分布式和集中式的技术,主要利用中心服务器以获得高效的协作模型,中心服务器主要调度数据分布和计算资源。这种集中式数据处理方法导致了双倍的通信负担,因为如果一些分散在不同数据库中的数据集被收集用来训练,首先这些数据就要被拷贝然后传输给中心服务器,接着中心服务器将分配数据到每个分布式客户机做分布式计算。这给系统的计算能力、存储与带宽增加了额外的严峻考验。
而在FL中,每个客户机完全自治,数据不被中心分配并且训练过程不被服务器掌控。因此,FL是一个集成的技术,它将机器学习模型与数据融合通过分散式的协作结合起来。
2.1.4 每个结点的地位平等
在平等方面,传统的分布式协作训练中,任何处理大量数据的结点都占据主导地位。因此,对有大量标注的数据与图片的组织机构的偏爱将会对工业领域的协作学习的发展产生不利影响。对于深度学习网络中的联合训练,这些有着大数据的机构可以操纵预测模型,因此中小型组织在联合训练上没有动力。(言外之意,传统的分布式学习中,各结点之间并不平等)
然而,在FL中,由于各方地位平等,这些有小数据的客户机的地位将被提升。
2.2 开源框架
现有两个主流开源框架:
- TensorFlow Federated(TFF):为机器学习或分散数据的其他计算需求提供服务(Google,2019)。这是第一个主要为移动设备在产品层面设计的自包含框架。特别是,TFF集成了FedAvg用于模型更新和安全聚合以解决隐私问题。TTF由FL API和联邦核心(FC)API组成。具体而言,FL API提供了一组高阶接口,使用户可以应用其中包含的机器学习方法来处理联邦训练。FC API是联邦学习的基础层,用于分布式计算。
- Federated AI Technology Enabler(FATE):由微众银行(Webank)团队创造的。作为第一个开源工业级框架,它主要用于跨组织架构。它基于同态加密和安全多方计算为客户端提供了足够的隐私。此外,各种机器学习算法,如逻辑回归和深度学习,以及迁移学习都可以建立在这个联邦系统上。除了这些现成的算法,大多数传统方法都可以适应这种联邦框架。
2.3 FL分类
由于被储存在不同的结点和机构中的数据主要以特征矩阵形式存在,通常来讲数据组成了许多实例,并且矩阵的横轴被看作客户,纵轴代表客户特征。然后我们就可以基于数据划分模式分类FL。
2.3.1 横向FL
在横向FL中,不同结点数据特征向量之间有相当的重叠部分,但同时数据在样本空间上不同。如今,现存FL算法主要应用在智能设备或IOT设备,这些场景基本上都是横向FL,Google的安卓移动手机更新的联邦模型方案(2017)就是典型的横向FL。
- 另外,为应对受限标签实体的挑战,Gao等人(2019)引入分层异构横向FL框架,通过每次将每个参与者作为目标域进行多次异构域适配,可以解决缺乏标签的不足。
在现实应用如医疗领域中,大量的工作与数据收集是分不开的,当需要跨区域协作时,对于各医院来说几乎不可能去构建一个用于共享的数据池,因此,FL可以为跨区域医院构建一个联邦网络(如下图所示)。

2.3.2 纵向FL
纵向FL适用于数据按照特征维度纵向划分的场景,各方在样本空间上有部分重合,但同时特征空间不同。
例如,一家医疗机构想要预测糖尿病等疾病,虽然可以从一些粗略维度(年龄、体重等)进行分析,但是由于缺乏信息无法做到个性化预测。随着FL的发展,它可以与一些拥有手机应用数据的公司合作,在无需传输原始数据的情况下相互协作(如下图所示)。一般来说,通过抽取具有不同特征的相同实体进行联合训练。
与横向FL中的情况不同,在一个公共服务器中聚合所有数据集以从全局模型中学习在纵向FL中不起作用,因为不同所有者之间的通信仍然是一个迫切需要解决的问题。
-
Nock等人(2018)提出了一种改进的基于令牌的实体解析算法,用于预处理垂直分区数据。
-
哈迪等人(2017)设计了一个基于线性分类器的端到端方案,并应用加法同态加密为纵向FL防御诚实但好奇的对手。
-
据报道

最低0.47元/天 解锁文章
3109

被折叠的 条评论
为什么被折叠?



