Value of Information: A Comprehensive Matrix for Client Selection in Federated Edge Learning

本文链接：https://blog.youkuaiyun.com/qq_56341866/article/details/134409607

Introduction

FEEL：联邦边缘学习，在中断设备上实现隐私保护和分布式机器学习。在参与的客户端之间会有数据和系统异质性挑战，影响学习过程的效率和准确性。

典型的FEEL系统组成：

由位于边缘端的参数服务器和位于末端的学习代理（客户端 client）组成。

与一般的联邦学习列斯，FEEL在每一轮训练中有四个步骤：

传播：服务器将全局模型传播给所有客户端
局部训练：客户端根据自己的数据和传播中接受到的全局模型进行局部训练，更新自己的局部ml模型。
上传：客户端将更新后的ml模型发送到基于边缘的参数服务器
聚合：服务器将接受到的本地模型聚合为全局模型。

重复以上过程直到FEEL获取高质量ML模型

与传统的联邦学习相比，由于参数服务器离终端设备较近能够提供快速绿色的模型交换，FEEL拥有更高的效率和更低的通信开销。

ques：绿色是指？

Client Selection是FEEL系统中的一个重要问题。

有限的网络资源（宽带等）使得所有本地的ml模型从客户端聚合到参数服务器的成本太高，在边缘网络中无法承受。（通俗理解，如果有100个本地ml模型，但是服务器最多聚合k个，那么就需要从100中选择k个本地ml模型，这就是Client Selection不准确的过程）。

A resolution：

在每个训练轮中只选择一小部分客户端来选择他们的本地ML模型，Client Select。Client Select的选择方案对于FEEL的系统性能影响很大。

数据异构的FEEL中，选择数据质量最高的客户端，收敛速度更快；同时，所选择的agent应该是具有非独立同分布的和不同大小数据的整体agent的代表以获得更高的精度和更快的收敛速度；并且如果参数服务器选择同步聚合模式synchronous aggregation mode，上传最慢的本地ml模型将成为训练周期的瓶颈，因此Client Select还应考虑上传效率。（re：Client select问题中，考虑的一个因素是客户端提供的数据质量；所选的Client数据应该具有非独立同分布、代表性；相似模型能力的情况下选择上传速度更快的agent）

Tips： FEEL中数据异构data heterogeneity是指数据的 variations of data on distribution、quality、size across multiple clients（数据在分布上的变化、数据质量、跨多个客户的大小）

Introduction中提到的Client Select策略：

每一轮通信中设置一个截止日期，只选择在规定时间内完成模型分发、更新、上传的客户端（避免上传过程中由于最慢的客户端影响联邦学习效率）
OCEAN研究了 系统异构 的客户端选择问题，对于选择的计算能力较弱的客户端分配较高的带宽，使所有选择的客户端都能尽快上传自己的模型，缓解FL中的散点效应问题。
FedCor基于高斯过程模型选择损耗方差大、协方差小的客户端，解决了数据异构的客户端选择问题。（re：方差大、协方差小代表什么）
FedProx同时考虑了数据异构和系统异构，在局部目标函数中引入近端项减少non-IID数据的负面影响，这可以防止局部更新偏离初始全局模型太远。还通过设置每个客户端的本地迭代次数解决系统异构问题（性能高的多迭代？）
Oort利用启发式算法根据客户端的本地更新和全局更新、通信延迟和计算速度来计算每个客户端的系统效用和统计效用。然后将客户端的系统效用和统计效用相乘得到客户端的总效用。选择最大效用的客户端来提高FL的效率、鲁棒性和可扩展性。
PyramidFL在Oort基础上，不仅在已选和未选的客户端之间并且也在已选的客户端内部利用数据和系统异质性。在已选的客户端根据基于排名的配置分配不同的模型修建策略和训练回合来优化数据效用和系统效用。
同时考虑多种异构性并不意味着将单独考虑data异构、system异构等Client select的结果简单组合，需要复杂的协同设计。

本文研究具有数据和系统异构性的Client select问题，基于 信息价值VoI（论文中新提出的概念，表示Client在Client Select中的价值） 提出了一个在FEEL中客户选择的综合框架，通过两个独立的步骤完成Client Select：

对异构Client进行准确的VoI估计
并以所选客户端的总价值最大为目标制定Client Select策略。

具体来说：

每一轮训练中使用一个 VoI估计器评估Client的VoI；
网络资源有限的约束条件下使用贪心策略选择最优价值的客户端；
选定客户端上传本地模型进行全局聚合。

Tips: VoI评估器分布在边缘的参数服务器上，使用RL算法（强化学习）估计客户端的VoI；RL中的神经网络能通过使用每一轮训练中的全局模型性能更新。

框架组成（以及贡献）：

VoI估计器：使用强化学习来学习VoI与客户端各种异构因素之间的关系。
Greedy client selector贪婪客户选择器：在网络资源约束下选择最有价值的客户端

同步联邦学习系统的工作流程

有n个Client端，每个Client拥有Private Data Set、buffer（存储从服务器接收到的全局模型）、buffer2（存储本地训练模型）、各种计算和通信能力（网络延迟和带宽）；从服务器下载全局模型的时隙t1和上传本地模型到服务器的时隙t2。

训练过程被分为同步的几轮，每轮拥有I个时隙，每一轮训练的第一个时隙服务器将全局模型传播给所有Client，最后一个时隙所有本地模型上传服务器完成（上传慢的、更大的本地模型需要更早进行上传过程）。

Step：

服务器将全局模型传播至每一个Client的Buffer。
Client读取全局模型后进行本地训练。每个训练过程结束后将本地模型存储至上传buffer，从下载Buffer读取一个新的全局模型，继续进行训练。
选择k个最有价值的Client上传本地模型（因为网络资源有限）。
被选择的Client上传其buffer中的本地模型。
在每一轮时隙最后，所有k个本地模型到达服务器，服务器执行经典的联邦平均方法FedAvg更新全局模型。重复上述四个过程直到满足训练终止条件。

Client Selection in 异构（Heterogeneous）FEEL

每个Client的数据集非独立同分布、大小不同，Client的计算能力、与服务器的通信和网络带宽时延等各不相同的异构FEEL。

目标是在每个训练轮中聚合了k个client的局部模型，在R轮训练之后（训练结束之后），FL的总Loss最小化。（question：如果一些loss比较大的Client局部模型对效果影响比较关键，会不会因为一味追求了Loss最小而选择了关键的局部模型？ VoI计算中，loss越大反而VoI值越高，因此该问题被解决）

选择k个最合适的Client是一个多目标优化问题，因此通过转化为VoI来表示Client选择过程的价值，最大化VoI即可。

关于VoI的定义与估计：

考虑的因素：数据集大小、计算和通信能力等多种异构的Client：