论文链接:https://doi.org/10.1609/aaai.v37i6.25891
论文代码:https://github.com/Yutong-Dai/FedNH
摘要
在联邦学习(FL)环境中,客户端数据异质性是一个广泛公认的挑战。为应对这一挑战,个性化联邦学习(PFL)作为一种框架应运而生,旨在为客户端任务定制本地模型。在PFL中,一个常见的策略是共同开发本地和全局模型——全局模型(用于泛化)指导本地模型,而本地模型(用于个性化)则被聚合以更新全局模型。一个关键观察是,如果我们能够提升本地模型的泛化能力,那么也能提升全局模型的泛化能力,从而构建更好的个性化模型。在本研究中,我们考虑了分类任务中一种被忽视的数据异质性类型——类别不平衡。我们提出了FedNH,一种新颖的方法,通过结合类别原型的均匀性和语义性,提升本地模型在个性化和泛化方面的表现。FedNH首先在潜在空间中均匀分布类别原型,然后平滑地将类别语义融入类别原型中。我们表明,施加均匀性有助于防止原型崩溃,而融入类别语义则有助于提升本地模型的表现。我们在流行的分类数据集上进行了大量实验,采用了跨设备设置。实验结果证明了我们方法在最新研究中的有效性和稳定性。
Introduction
联邦学习(FL)是一个新兴领域,因其能够允许在保护隐私的前提下对分散数据进行协作学习而受到机器学习社区的广泛关注。然而,在FL中,客户端的数据分布可能不同,这违反了集中式机器学习中独立同分布(i.i.d)的标准假设。这种非独立同分布现象被称为数据异质性(data heterogeneity)问题,是导致全局模型性能下降的公认原因。此外,从客户端的角度来看,全局模型可能并不是最适合其任务的模型。因此,个性化联邦学习(PFL)作为FL的一种变体应运而生,通过将全局模型与本地数据结合,学习个性化模型以最佳满足客户端任务。
尽管PFL方法解决了数据异质性问题,但类别不平衡与数据异质性相结合的情况仍然被忽视。当客户端的数据由不同类别分布组成,并且客户端可能根本没有某一特定类别的样本时,就会发生类别不平衡。理想情况下,个性化模型在本地训练数据集中出现的所有类别中都能表现良好。例如,医疗机构在不同疾病的医疗记录中有不同的分布(Ng et al. 2021),因此个性化模型能够以相同的精度检测地方疾病至关重要。同时,目前评估PFL方法有效性的做法也可能存在偏见。具体而言,在评估准确性时,单个均衡测试数据集被分割成多个与客户端训练数据分布匹配的本地测试数据集。然后,在本地测试数据集上测试每个个性化模型,并报告平均准确性。然而,在存在类别不平衡的情况下,这种评估协议可能由于主导类别潜在的过拟合而给出偏见评估。借用为集中式类别不平衡学习开发的技术,如重采样或对少数类别重新加权,虽然很有诱惑性,但由于FL环境中的数据异质性,不同的客户端可能会有不同的主导类别,甚至具有不同缺失的类别;因此,直接采用这些技术可能不适用。此外,重采样将需要对所有类别的了解,这可能违反隐私限制。
在非联邦学习环境中,最近的类不平衡学习研究(Kang et al. 2019; Zhou et al. 2020)建议将训练过程解耦为表示学习和分类阶段。表示学习阶段旨在构建高质量的表示以进行分类,而分类阶段则寻求平衡主导类别和少数类别之间的决策边界。有趣的是,FL相关研究(如Oh, Kim, 和 Yun 2021; Chen 和 Chao 2021)发现分类器是性能下降的原因,并建议学习强大的共享表示可以提升性能。
与先前研究的发现一致,如后面图1所示,我们观察到在使用类别均衡数据集进行学习时,不同类别的表示在表示空间中均匀分布,并围绕类别原型聚集。然而,当训练集存在类别不平衡时,正如不同客户端的情况一样,少数类别的表示与主要类别的表示重叠;因此,这些表示的质量较低。受到这些观察结果的启发,我们提出了FedNH(非参数头),一种通过施加表示空间的均匀性并保持类别语义来处理具有不平衡类别的数据异质性的新方法。我们初步将在潜在空间中均匀分布类别原型作为归纳偏差,以提高学习到的表示质量,并平滑地将类别语义融入类别原型中,以改善分类器在本地任务上的性能。我们的贡献总结如下:
- 我们提出了FedNH,这是一种通过利用类别原型的均匀性和语义来应对类别不平衡的数据异质性的新方法。
- 我们设计了一种新的指标来评估个性化模型的性能。该指标对类别不平衡的敏感性较低,并反映了个性化模型在少数类别上的泛化能力。
- 在Cifar10、Cifar100和Tiny-ImageNet上的数值实验表明,FedNH可以有效提高个性化和全局模型的分类准确性。结果与最先进的方法相当或更好,同时计算成本显著更低(有关计算成本的讨论,请参阅附录)。
我们通过引入本文中使用的符号和术语来结束这一部分。
符号与术语
令 和
分别表示 n 维实向量的集合和 m×n 维实矩阵的集合。除非另有说明,∥⋅∥ 表示 ℓ2 范数,∣⋅∣ 表示集合基数操作符。令 [N] 表示集合 {1, 2, ···, N},对于任何正整数 N。对于任何矩阵
,Ai 表示 A 的第 i 行。令
表示均值为 μ、方差为
的 d 维正态分布。
X∼表示从该分布中抽取的随机样本。E[⋅] 是期望操作符,⌈⋅⌉ 则是向上取整操作符。
对于一个神经网络,我们将其参数分解为主体 (θ) 和头部 (W)。主体用于学习输入的抽象表示,而头部用于分类。神经网络的输出可以表示为 Wf(θ;⋅),其中第二个参数是输入的占位符。在本研究中,我们仅考虑最后的线性层作为头部。我们将“头部”和“原型”这两个术语交替使用,因为它们都指的是神经网络最后一层线性分类层的参数。“头部”这一术语在讨论神经网络架构时更常用,而“原型”这一术语在讨论分类任务时更为常见。有些研究将原型定义为一个类别的均值表示,这一区别将在上下文中明确。
Related Work
Personalized Fedrated Learning 个性化联邦学习
个性化联邦学习(PFL)方法可以根据生成个性化模型的策略粗略分类,例如,参数解耦、正则化和模型插值。有关详细讨论,请参见文献综述(Tan et al. 2022a)。在这里,我们主要关注客户端在进行本地训练时解耦主体和头部的方法。FedPer(Arivazhagan et al. 2019)与FedAvg类似,同时学习主体和头部,并仅与服务器共享主体。因此,个性化模型由共享主体和个性化头部组成。FedRep(Collins et al. 2021)则是顺序学习头部和主体,仅共享主体。具体而言,每个客户端首先使用从服务器接收到的固定主体学习头部,然后在固定最新个性化头部的情况下学习主体。FedBABU(Oh, Kim, 和 Yun 2021)在本地更新期间仅学习主体,并在固定的随机初始化头部下进行训练,分享的仅是主体。当训练完成后,通过微调全局模型来获得个性化模型。FedROD(Chen 和 Chao 2021)设计了一种二头一体的架构,其中两个头部分别由使用类别均衡损失训练的广义头和使用经验损失训练的个性化头组成。主体和广义头会与服务器共享以进行聚合,而个性化头则保持私密。上述提到的方法假设客户端的模型架构是相同的。然而,FedProto(Tan et al. 2022b)打破了这一限制。它仅分享类原型(计算为每个类别的均值表示),以便不同客户端可以有不同的主体模型架构。
Class Imbalanced Learning 类别不平衡学习
在非联邦学习(FL)环境中,数据层面和算法层面的策略是解决类别不平衡的最常见方法。对少数类进行过度采样或对多数类进行欠采样是创建更平衡类别分布的简单而有效的方法(Kubat 和 Matwin 1997; Chawla et al. 2002; He 和 Garcia 2009)。然而,这些方法可能容易导致对少数类的过拟合或对多数类的信息丧失。在算法层面,提出了各种类别平衡损失,用于分别对样本或类别分配不同的损失(Lin et al. 2017; Khan et al. 2017; Cao et al. 2019; Cui et al. 2019)。最近的研究(Kang et al. 2019; Zhou et al. 2020)建议将训练过程解耦为表示学习和分类阶段,在第一阶段学习强表示,而在第二阶段重新平衡分类器。Wang et al.(2020)提出了一种多专家框架,其中每个专家仅负责一部分类别,以最小化对少数类的偏倚。
在FL环境中,少数研究解决了类别不平衡问题。Duan et al.(2020)选择具有互补类别分布的客户端进行更新,这要求客户端向服务器透露类别分布。Wang et al.(2021)假设服务器上可用一个类别平衡的辅助数据集,以推断训练数据的组成,并设计了一种比率损失来缓解不平衡的影响。CReFF(Shang et al. 2022)扩展了Kang et al.(2019)中的思想,以隐私保护的方式基于联邦特征重新训练分类器。据我们所知,FedROD和CReFF是唯一在FL环境中解决数据异质性与类别不平衡问题的工作,且没有潜在的隐私泄露,也不需要服务器端的辅助数据集。
Methodology
A Motivating Example
在个性化联邦学习(PFL)中,训练的一个关键部分是在每个客户端本地进行的。我们通过考虑在平衡和不平衡训练数据集下使用交叉熵损失函数训练的神经网络学习到的输入表示和类别原型的行为来激励我们的方法。我们首先生成一个平衡的二维合成螺旋训练数据集(图1(a)),包含六个类别,每个类别有3000个点。对于每个类别 k ∈ {0, · · · , 5}, 数据点生成为
,
其中对于所有 i ∈ [3000],