论文1 :
Adapter-guided knowledge transfer for heterogeneous federated learning
- Shichong Liu, Haozhe Jin, Zhiwei Tang, Rui Zhai∗, Ke Lu, Junyang Yu, Chenxi Bai
- School of Software, Henan University, Kaifeng, 475000, China
- https://doi.org/10.1016/j.sysarc.2025.103338
- 《Journal of Systems Architecture》(CCF-B期刊)
Abstract
【背景】联邦学习(FL)旨在利用分散的数据协同训练一个全局模型或多个本地模型。
【动机】大多数现有的联邦学习方法侧重于解决客户端之间的统计异质性问题,却常常忽视了模型异质性带来的挑战。
【设计】为了解决统计异质性和模型异质性这两个问题,提出了FedAKT,这是一种新型的模型异质性个性化联邦学习(MHPFL)方法。
- 首先,为了促进跨客户端的知识转移,我们的方法为每个客户端添加了一个小型的同构适配器。
- 其次,我们引入了基于特征的互蒸馏(FMD)机制,该机制能够促进本地模型之间的双向知识交换。
- 第三,我们提出了头部两用(HDU)机制,使每个本地模型的头部能够从不同的视角有效地学习特征信息。
【实验】在CIFAR10、CIFAR - 100和Tiny - ImageNet数据集上进行的大量实验表明,与先进的基线方法相比,FedAKT具有优越性。
Background
- Federated Learning
- Non-IID data(statistical heterogeneity)
- 客户端倾向于设计独特的模型,以避免资源浪费和低性能客户端过载。

Motivations
- 模型异质性和统计异质性问题通常由模型异质个性化联邦学习(MHPFL)来解决。现有的 MHPFL 方法可分为三类:知识蒸馏、模型解耦和类别信息共享。
- 知识蒸馏方法通常依赖公共数据集,获取这些数据集或保证其质量可能具有挑战性。一些方法使用生成模型来生成高质量数据集,但训练生成模型会带来巨大的计算开销。
- 模型解耦方法需要将相同的网络层上传到服务器,这限制了模型的异质性程度。
- 类别信息共享方法,如共享原型或对数几率,可以降低通信成本。然而,它们可能存在泄露敏感数据分布信息的风险,从而限制了其应用。
Challenges
- 在回顾先前的模型异质个性化联邦学习(MHPFL)研究时,有三个核心问题成为了主要的研究重点:
- 确定客户端和服务器之间应该共享哪些知识;
- 开发何种框架以促进异构模型设置下的跨客户端知识转移;
- 实现本地模型之间的有效知识交换。
Overview

我们的FedAKT工作流程如图4所示。为简化图中符号, F i F_{i} Fi 代表本地异构特征提取器, H i H_{i} Hi 表示本地异构头部, i ∈ [ 1 , m ] i \in[1, m] i∈[1,m]。此外, F i ′ F_{i}' Fi′ 是本地同构适配器, F ′ F' F′ 表示全局同构适配器。 h i h_{i} hi 和 h i ′ h_{i}' hi′ 分别表示来自本地异构特征提取器 F i F_{i} Fi 和同构适配器 F i ′ F_{i}' Fi′ 的隐藏特征。 F i F_{i} Fi 和 F i ′ F_{i}' Fi′ 将输入空间映射到相同的特征空间 R e \mathbb{R}^{e} Re,而 H i H_{i} Hi 将特征空间映射到类别空间 R c \mathbb{R}^{c} Rc。
我们的算法过程分为四个阶段:
- 在初始化阶段,服务器上随机初始化全局同构适配器。此外,每个客户端上随机初始化本地同构适配器、本地异构特征提取器和本地异构头部。
- 在本地训练阶段,本地数据同时输入到同构适配器和异构特征提取器中,以获得相应的隐藏特征。然后,每个客户端执行基于特征的互蒸馏来交换知识。同时,这些隐藏特征被输入到本地异构头部以输出预测结果。最后,计算预测类别与真实标签类别之间的分类损失。
- 在本地更新阶段,每个本地模型(包括异构特征提取器和异构头部)使用梯度下降法进行更新。此外,本地同构适配器也进行更新。
- 在通信阶段,服务器负责聚合本地同构适配器,并广播全局同构适配器。每个客户端接收全局同构适配器,并准备开始新的一轮训练迭代。重复该算法过程,直到客户端模型收敛。

Designs
对于问题1(Q1):受先前研究成果的启发,我们利用这样一个见解,即深度神经网络(DNN)的较低层往往比高层学习到更通用的信息。因此,我们将每个本地模型拆分为一个异构特征提取器(较低层)和一个异构头部(较高层),发现异构特征提取器中的知识更有利于共享。
对于问题2(Q2):由于模型的异构性,模型无法在服务器上直接进行聚合。目前大多数MHPFL方法要么需要复杂的流程,要么知识共享能力有限。因此,我们在每个客户端模型中引入一个小型同构适配器(小型同构特征提取器)。这些同构适配器被上传到服务器,有助于实现跨客户端的有效知识转移。
对于问题3(Q3):受互蒸馏和特征蒸馏的启发,我们提出了一种创新的基于特征的互蒸馏(FMD)机制,支持同构适配器和异构特征提取器之间的双向知识转移。此外,我们引入了头部两用(HDU)机制,使同构适配器和异构特征提取器能够共享客户端独特的本地异构头部。通过HDU,本地异构头部可以从不同角度有效地整合和学习特征信息。
4.2 基于特征的互蒸馏机制 Feature-based mutual distillation mechanism
为了在同构适配器和异构特征提取器之间实现有效的知识交换,我们提出了基于特征的互蒸馏(FMD)机制。在每一轮通信中,客户端 i i i 同时训练同构适配器 F i ′ ( δ i ) F_{i}'(\delta_{i}) Fi′(δi)、异构特征提取器 F i ( φ i ) F_{i}(\varphi_{i}) Fi(φi) 和异构头部 H i ( θ i ) H_{i}(\theta_{i}) Hi(θi)。具体来说,在公式(8)中,本地数据样本 x j ∈ B k x_{j} \in B_{k} xj∈Bk 同时输入到 F i ( φ i ) F_{i}(\varphi_{i}) Fi(φi) 和 F i ′ ( δ i ) F_{i}'(\delta_{i}) Fi′(δi) 中,得到隐藏特征 h j ∈ R e h_{j} \in \mathbb{R}^{e} hj∈Re 和 h j ′ ∈ R e h_{j}' \in \mathbb{R}^{e} hj′∈Re。这里, B k B_{k} Bk 代表本地数据 D i D_{i} Di 的一个批次, j j j 表示 B k B_{k} Bk 的第 j j j 个样本。由于初始条件不同, F i ( φ i ) F_{i}(\varphi_{i}) Fi(φi) 和 F i ′ ( δ i ) F_{i}'(\delta_{i}) Fi′(δ

最低0.47元/天 解锁文章
5058

被折叠的 条评论
为什么被折叠?



