Data-Free Knowledge Distillation for Heterogeneous Federated Learning

文章提出了FEDGEN,一种用于异构联邦学习的无数据知识蒸馏方法。通过学习轻量级生成器,FEDGEN能从用户模型中提取知识,并在不依赖额外数据的情况下指导局部模型的训练,改善模型的泛化性能。该方法通过生成器生成与用户预测一致的特征表示,以此来调节局部模型的更新,减轻异质性带来的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract

在联邦学习中使用知识蒸馏,这种方法依赖于代理数据集,因此除非满足这样的先决条件,否则是不切实际的。此外,集成知识没有被充分利用来指导局部模型学习,这反过来可能影响聚合模型的质量。在这项工作中,作者提出了一种无数据的知识提炼方法来解决异构FL,其中服务器学习一个轻量级生成器来以无数据的方式集成用户信息,然后将其广播给用户,使用学习到的知识作为归纳偏差来调节本地训练。

1. Introduction

已经做出了各种努力来解决用户异质性问题,主要是从两个互补的角度:一种方法是通过在参数空间上调整局部模型与全局模型的偏差来稳定局部训练。这种方法可能无法充分利用跨用户模型的底层知识,用户模型的多样性表明其本地数据的信息结构差异,因此值得进行更多的研究。

另一个方法是提高模型聚集的效率,其中知识蒸馏已成为一种有效的解决方案。以未标记数据集作为代理,知识蒸馏通过利用局部模型的集成知识丰富全局模型,缓解了异质性导致的模型漂移问题,比简单的参数平均更有效。

FEDGEN学习仅从用户模型的预测规则导出的生成模型,给定目标标签,该生成模型可以产生与用户预测的集合一致的特征表示。这个生成器稍后被广播给用户,在潜在空间上伴随着他们的模型训练与扩充的样本,潜在空间体现了来自其他对等用户的提取的知识

FEDGEN收益:1.它从用户那里提取知识,而这些知识在模型平均后会得到缓解,而不依赖于任何外部数据。2.我们的方法使用所提取的知识直接调节局部模型更新。3.我们表明,这样的知识强加了一个归纳偏向局部模型,导致在非iid数据分布下更好的泛化性能。

2. Notations and Preliminaries

是实例空间,是的潜在特征空间,是输出空间。表示由X上的数据分布D和真实标记函数c * 组成的域:,即。注意,我们将等价地使用术语域和任务。θ参数化模型由两部分组成:特征提取器参数化,预测器参数化,其中上的单形。给定非负凸损失函数,在定义域T上以θ为参数的模型的风险定义为

是用户任务的集合。我们考虑所有任务共享相同标记规则c * 和损失函数l的,即:。FL的一个隐含假设是全局数据分布到每个局部域,

知识整理的思想已经扩展到联邦学习FL以处理用户异质性,通过将每个用户模型θk视为教师,将其信息聚合到学生(全局)模型θ中以提高其泛化性能: 

3. FEDGEN: Data-Free Federated Distillation via Generative Learning 

 3.1. Knowledge Extraction

我们的核心思想是提取关于数据分布的全局视图的知识,这是传统FL所不能观察到的,并且将这样的知识提取到局部模型以指导它们的学习。

我们首先考虑学习条件分布来表征这种知识,这与真实数据分布是一致的:

其中p(y)和p(y|x)分别是目标标签的真实先验和后验分布,两者都是未知的。为了使等式2可相对于Q优化,我们替换p(y)和p(x|y)及其经验近似值。首先,我们估计p(y)为:

在实践中,可以通过在模型上传阶段要求用户提供训练标签计数来获得p(y). 接下来我们使用来自于用户模型的聚集智慧(wisdom)来近似p(y|x)

 配备有上述近似,在输入空间X上直接优化等式2仍然是禁止的:当X是高维时,它会带来计算负担,并且还可能泄漏关于用户数据的信息。因此,一个更容易实现的想法是在潜在空间上恢复诱导分布,潜在空间比原始数据空间更紧凑,并且可以减轻某些与隐私相关的问题:

根据上述推理,我们旨在通过学习由w参数化的条件生成器G来执行知识提取(由标签生成特征表示),以优化以下目标: 

给定任意样本y,优化等式4仅需要访问用户模型的预测器模块。 具体而言,为了使的输出多样化,我们在生成器中引入一个噪声向量这类似于现有技术(Kingma & Welling,2014)提出的重新参数化技术,因此

给定任意目标标签y,所提出的生成器可以产生特征表示,其从用户模型的集合中导出理想的预测。换句话说,生成器近似合意分布的诱导图像,其从全局观点来看与用户数据一致。

3.2. Knowledge Distillation

然后,学习的生成器Gw被广播给本地用户,这样每个用户模型都可以从Gw中采样以获得增强表示z ∝ Gw(·|y)在特征空间上。结果,局部模型θk的目标被改变以最大化其产生扩增样本的理想预测的概率

扩充样本可以向本地用户引入归纳偏差,从而以更好的泛化性能增强他们的模型学习. 

到目前为止,提出的方法通过交互式学习一个主要依赖于局部模型预测规则的轻量级生成器,并利用该生成器将共识知识传递给局部用户,实现了数据知识的提炼.我们在第6.2节中证明了我们的方法可以有效地处理FL中的用户异质性,这也享有第4节中分析的理论优势。

 3.3. Extensions for Flexible Parameter Sharing

 除了处理数据异构性,FEDGEN还可以处理具有挑战性的FL场景,即共享整个模型违反通信或隐私先决条件。一方面,具有深特征提取层的高级网络通常包含数百万个参数(,给通信带来了不小的负担。另一方面,后门常规 FL 方法已被证明是可行的。

FEDGEN准备通过仅共享局部模型的预测层来缓解这些问题,该预测层是优化等式4所需的主要信息,同时保持特征提取器局部化。与共享整个模型的策略相比,这种部分共享范例更高效,同时更不易受到数据泄漏的影响。第6.4节的实证研究表明,即使不共享特征提取模块,FEDGEN也能显著惠及本地用户。我们把这种变体方法的算法总结推迟到补充部分。

 4. FEDGEN Analysis

 在本节中,我们将从多个角度来理解我们提出的方法。我们首先将FEDGEN学习和提取的知识可视化,然后分别从分布匹配和领域适应的角度分析为什么提取的知识是有利的。

4.1. Knowledge Distillation for Inductive Bias

 我们在FL原型上演示了FEDGEN中的KD过程,该原型包含三个用户,每个用户分配有一个不相交的数据集D k,k ∈ {1,2,3}。当仅使用本地数据训练时,用户模型易于学习有偏差的决策边界。

接下来,生成器基于用户模型的预测规则来学习。为了获得清晰的可视化效果,我们学习在原始特征空间而不是潜在空间上。

如图3所示,r(x|y),其表示从导出的分布逐渐与真实分布p(x|y)一致(图2d),即使单个局部模型存在偏倚。换句话说,Gw(x|y)可以融合来自用户模型的聚集信息以近似全局数据分布。 然后,我们让用户从Gw(x|y)采样,其作用使得具有有限数据的用户的感应偏置。每个用户可以观察其自身训练数据之外的数据,并且调整其决策边界以接近集成智慧。

 4.2. Knowledge Distillation for Distribution Matching

FEDGEN和以前的工作之间的一个显著区别是知识被提炼到用户模型而不是全局模型。结果,向用户传递归纳偏向的所提取的知识可以通过在潜在空间Z上执行分布匹配来直接调节他们的学习:

Remark1.设p(y)为标签的先验分布,r(z|y):Y → Z是从Generator Gw导出的条件分布。然后使用来自r(z|y)的样本调整用户模型θ k可以最小化分别从生成者和用户导出的两个分布之间的条件KL散度:

 我们定义作为给定预测器θk 假设其产生标签y 则输入特征是z的概率。(两个分布匹配的意义?用户的分布感觉有点奇怪。)

在实践中,通过使用来自genrator的经验样本来优化等式6:

 与局部模型目标的第二项一致(等式5),

FEDGEN可以作为解决用户异质性的替代和兼容解决方案,这在本质上弥合了用户模型之间差距,因为它们对理想特征分布的解释。 

 4.3. Knowledge Distillation for Improved Generalization

人们还可以从FEDGEN学到的知识中得出一个理论联系,以改进推广界限。为了看到这一点,我们首先提出了FL中的聚合模型的性能界限,它是基于来领域自适应的现有技术构建的。

Theorem1.(Generalization Bounds for FL)考虑具有K个用户的FL系统。令T分别是第k个局部域和全局域。令是在用户之间同时共享的特征提取函数。hk表示在域Tk上学习的假设表示用户假设的全局集合。则概率至少为1 − δ。

数据免费知识蒸馏与软目标传输集合合成是一种通过利用现有数据集来提高深度神经网络的性能的方法。这种方法主要包括两个步骤:知识蒸馏和软目标传输集合合成。 首先,知识蒸馏是指将一个已经训练好的大型模型的知识转移到一个小型模型中。这样做的好处是,小型模型可以通过利用大型模型的知识来提高其性能。知识蒸馏的过程包括将大型模型的输出(一般是概率分布)作为目标分布,然后使用目标分布和小型模型的输出之间的交叉熵作为损失函数进行训练。通过这种方式,小型模型可以学习到大型模型的知识,并提高其性能。 其次,软目标传输集合合成是指通过合成新的目标数据集来进一步提高小型模型的性能。这是通过将已有数据集中的样本与大型模型的输出结合起来产生的。具体而言,对于每个样本,使用大型模型进行预测,并根据预测结果以及训练集中的标签来合成一个新的目标分布。然后,再次使用目标分布和小型模型的输出之间的交叉熵作为损失函数进行训练。通过这种方式,小型模型可以进一步学习到大型模型的知识,并提高其性能。 总之,数据免费知识蒸馏与软目标传输集合合成是一种提高深度神经网络性能的有效方法。通过利用已有的数据集和大型模型的知识,可以帮助小型模型更好地学习并提高其性能。这种方法在许多领域中都有广泛的应用,例如计算机视觉、自然语言处理等。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值