基于联邦学习的物联网计算卸载

最新推荐文章于 2025-12-04 17:23:33 发布

原创最新推荐文章于 2025-12-04 17:23:33 发布 · 629 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#边缘计算 # 物联网 # 计算卸载 # 联邦学习 # 深度强化学习

部署运行你感兴趣的模型镜像

边缘计算支持的物联网中多代理的计算卸载

沈世豪，韩一文，和王小飞，天津大学，中国
王艳，哈尔滨工程大学，中国

随着物联网（IoT）的发展以及各类新型物联网设备的出现，海量物联网设备的承载能力正面临挑战。幸运的是，边缘计算可通过将部分计算任务卸载到靠近数据源的边缘节点，优化延迟和连接性等问题。利用这一特性，物联网设备可以在保持服务质量的同时节省更多资源。然而，由于计算卸载决策涉及联合且复杂的资源管理，我们采用部署在物联网设备上的多个深度强化学习（DRL）代理来指导各自的决策。此外，采用联邦学习（FL）以分布式方式训练DRL代理，旨在使基于DRL的决策更具实用性，并进一步降低物联网设备与边缘节点之间的传输开销。本文中，我们首先研究了计算卸载优化问题，并证明该问题是一个NP难问题。接着，基于深度强化学习和联邦学习，提出了一种不同于传统方法的卸载算法。最后，我们研究了各种参数对算法性能的影响，并验证了深度强化学习和联邦学习在物联网系统中的有效性。

1 引言

物联网是互联网的延伸，它可以通过使用传感器将物品连接到网络，实现智能管理、定位、识别和通信。监测和其他功能。目前，物联网正在迅速兴起，并推动了各种相关应用服务的蓬勃发展。它已被应用于智能家居[19],人体健康检测[16],灾害管理[21],建筑结构安全[15],人员识别[22]等诸多领域。

示意图0

如图1所示，物联网已与各个领域紧密融合。然而，各种应用服务在提供丰富功能的同时需要部署大量物联网设备，这给通信带来了巨大压力。此外，智能家居设备和可穿戴设备等各种新型物联网设备不断涌现，它们对网络的带宽、延迟和隐私性有极为严格的要求[28, 30],，这对通信质量提出了挑战。

为了满足日益增长的服务需求，大量物联网设备将被广泛部署以执行监控、传感数据采集与预处理以及即时决策等任务。上述任务通常需要大量的计算资源，而物联网设备的能力相对较弱，难以支持。然而，边缘计算可以卸载任务，并有望解决这一问题[25, 32]。具体而言，边缘计算可将物联网设备提交的计算任务卸载到类似的边缘节点，以提供丰富的计算资源。此外，在边缘计算系统中，边缘节点作为它们之间的协调者，负责其通信甚至负载均衡[37]。

在解决任务卸载中的资源分配问题时，除了使用凸优化[6]和博弈论[7],深度强化学习（DRL）被用于[8]处理计算卸载中的综合资源分配。该方法可以最大化能耗和执行延迟的长期效益，并且不需要事先了解网络静态信息和部分信息。具体而言，这类优化具有许多优点。首先，物联网设备无需获取全局信息，这有利于通信传输和隐私保护。其次，它具有对动态环境的适应性。最后，这类优化不仅优化某一时间段内的系统性能，还会考虑长期效益。然而，在[8]中做了一个假设。他们假设物联网设备具备足够的计算能力，能够独立训练自己的DRL代理。然而，物联网设备在不久的将来不会变得如此强大，其计算资源最多只能支持轻量级神经网络。

目前，由于人们更加关注数据安全和隐私，数据与隐私保护已成为必须考虑的重要问题[38]。例如，欧盟实施的通用数据保护条例[27]旨在保护数据安全和隐私，并赋予用户删除或撤回个人数据的权利。因此，传统的将数据传输至数据中心进行集中式分析的方式未来将面临隐私障碍。总之，如何在利用大量数据的同时保护数据安全和隐私，将成为未来的重要挑战。

因此，我们提出一种基于联邦学习（FL）的分布[5, 26]式训练方案，以减轻每个设备上的训练负担。与在具有优良网络环境的数据中心中进行的传统分布式训练不同，这种训练受限于无线通信和网络，必须以高效的通信方式进行。在这种情况下，各物联网设备感知到的观测数据无需频繁地在设备与边缘节点之间传输。特定物联网设备上的观测数据用于本地训练，仅将DRL代理的更新后的参数上传至边缘节点进行进一步的模型聚合。

因此，在本研究中，我们采用联邦学习（FL）来开展深度强化学习智能体的训练过程，以联合分配通信与计算资源。具体而言，我们的主要贡献体现在以下三个方面：

首先，我们研究了边缘计算支持的物联网中的计算卸载优化问题。一方面，计算任务可以在本地执行，但需要将部分能量分配给物联网设备中的任务处理组件；另一方面，也可以通过将任务传输到边缘节点来执行，但这需要将部分能量分配给物联网设备中的数据传输组件。与本地执行相比，这种方法可以利用边缘节点更丰富的计算资源，但由于数据传输会带来额外的传输延迟。此外，我们进一步分析了该问题的复杂性，并证明该问题是NP难的。

其次，我们设计了一种算法来决策计算卸载和能量分配，以最大化预期长期效用。该算法可以基于联邦学习进行训练，因此每个物联网设备收集的数据只需在本地存储和分析。这种方法避免了大量的数据传输，并实现了良好的数据隐私保护。

最后，我们对所提算法进行了仿真评估，并研究了各种系统参数的影响。实验结果证实了其相较于集中式训练方法的有效性。

2 背景

在本节中，我们介绍本研究的背景。由于本研究所依赖的技术主要涉及深度强化学习、联邦学习和边缘计算，因此简要介绍了这些技术的原理及相关研究。

示意图1

2.1 深度强化学习

由于强化学习（RL）技术通常应用于小规模的数据空间，因此很难通过RL对高维数据进行处理。然而，深度强化学习（DRL）通过将深度学习的高维输入与强化学习相结合，解决了这一问题。

强化学习通常会根据环境状态a来尝试做出动作决策s，然后将该动作作用于环境以获得动作奖励r，并根据r[34]不断调整和优化。深度学习是一种通过多层神经网络对数据进行表征和学习的方法，能够通过神经网络学习到数据的特征信息。深度强化学习结合了深度学习与强化学习，不仅保留了深度学习的感知能力，还能实现强化学习的决策功能，因此具有更好的性能。

深度强化学习已成功应用于自然语言处理[31],图像识别[29],等多个领域。其中，AlphaGo[33],在围棋比赛中击败了人类职业棋手，展现了出色的决策能力。此外，一些研究人员使用深度强化学习来玩雅达利游戏。他们以操纵杆的移动方向作为深度强化学习的动作空间，以游戏中的得分为奖励来训练模型。在这些游戏中，深度强化学习在六款游戏中超过了传统方法，甚至在三款游戏上的表现超越了人类水平。此外，各种深度强化学习库，如TensorFlow[12], Caffe[18],和Keras[4]也相继涌现，推动了深度强化学习的应用。

如图2所示，双深度Q学习（DDQN）[35]是一种优秀的深度强化学习算法。为了解决强化学习中的维度灾难问题，DDQN使用神经网络来近似之前未出现过的某些状态：
$$ Q(s, a) \approx f(s, a, w). $$
(1)

神经网络的训练过程是一个优化问题，因此损失函数定义为：
$$ L=(r+ \gamma Q_{target}(s’, \arg \max_a Q_{current}(s’, a)) - Q_{current}(s, a))^2. $$
(2)

此外，由于神经网络的训练是有监督的，训练数据必须满足独立同分布；否则，网络将陷入局部最小值。因此，在每个时间步t构建一个回放缓冲区B来存储数据样本Dt=(st, at, rt, st+1)，并在训练期间随机提取一个小批量样本。

2.2 联邦学习

传统的大规模神经网络训练需要将数据集中到一个设备上，这对流量负载和数据隐私带来了巨大挑战。针对这一问题，谷歌提出了联邦学习[13]。它允许多个终端设备基于本地数据进行训练，然后仅需将更新上传至云。

示意图2

联邦学习的工作方式如图3所示。首先，终端设备从云下载共享模型，然后根据本地数据训练模型，并通过加密传输将更新传送到云。最后，云根据来自多个终端设备的更新整合共享模型。由于用户数据在整个过程中始终存储在终端设备本地，因此可避免大量数据传输到云，从而减轻数据传输压力并保护数据隐私。

在联邦学习的实际应用中，仍然存在一些问题。一方面，样本数据会以极度不均衡的方式分布在大量终端设备上。另一方面，终端设备的传输速度较慢，尤其是数据上传速度会限制整体性能。为了解决这些问题，谷歌开发了一种名为联邦平均的算法，以减少训练深度神经网络时的网络需求[26],并通过使用随机旋转和量化来压缩更新，从而减少传输的数据量[24]。此外，还设计了一种联邦优化算法，用于优化高维稀疏凸模型[23]。

2.3 边缘计算

边缘计算通过分布式边缘节点向靠近用户的区域提供网络、计算、应用和存储服务。因此，任务可以在边缘节点上执行，避免将数据发送到云。2014年，欧洲电信标准协会标准化了边缘计算概念[9],这也标志着边缘计算技术的标准化。

边缘计算中的终端设备多种多样，例如联网车辆[14],智能摄像头[3],等，它们是数据和任务的生产者，并进行数据预处理和数据传输功能[1]。然而，当终端设备需要处理计算资源需求非常大的任务时，通常很难仅依靠设备自身的计算能力来满足需求。因此，可以通过利用边缘节点的计算资源进行边缘计算来解决该问题。边缘节点在地理位置上靠近终端设备，能够提供高质量的网络连接和计算服务。与终端设备相比，边缘节点具有更强大的计算能力来处理任务，并且相较于云，边缘节点对终端设备的响应速度更快。因此，通过使用边缘节点执行部分计算任务，可以在保证准确性的前提下提高任务的响应速度。此外，边缘节点还具备缓存功能[39],，通过缓存访问热度较高的对象，可以缩短再次访问的响应时间。

示意图3

3 系统模型

接下来，我们将介绍本研究中使用的系统模型。首先，给出边缘计算支持的物联网系统的整体架构，并介绍系统中涉及的相关参数。然后，我们介绍相关参数的变化方式，并展示参数的推导过程。

3.1 概述

如图4所示，物联网设备表示为D={1,…,D}，位于一组边缘节点（ENs）N={1,…,N}的服务区域内。值得注意的是，采用时间片的概念将时间划分为若干个以δ（单位：秒）为长度的轮次，并用i作为时间索引。边缘节点支持传输和计算功能，且每个边缘节点的地理位置、任务处理能力和数据传输能力各不相同。对于物联网设备而言，会有一个最大长度为q_t_max的任务队列，用于临时存储任务，这些任务将按照先进先出（FIFO）的顺序执行。

物联网设备根据伯努利分布生成任务，并定义a_t_i为任务到达指示器。a_t_i = 1表示在轮次i有任务生成；否则表示没有任务生成。当任务队列已达到上限，任务队列将不会存储新生成的任务，这将导致任务直接失败。此外，能量单位的收集方法与[2]中讨论的类似，物联网设备可以从外部收集能量单位。在建模中，物联网设备具有一个最大长度为q_e_max的能量队列，用于存储能量单位，其将根据泊松分布获取能量单位。

物联网设备生成的计算任务被建模为(μ,ν)，其中μ（以比特为单位）和ν分别表示任务卸载所需的传输数据大小和处理该任务所需的CPU周期数。此外，完成这些计算任务有两种方式：一种是在物联网设备本地执行，另一种是通过信道带宽为WHz的信道卸载到边缘节点执行。然而，如图5所示，若任务在本地执行，则可避免由数据传输引起的延迟；反之，若任务在边缘节点执行，则可以利用边缘节点更丰富的计算资源。两种方法各有优劣，需根据具体状态进行权衡。

示意图4

示意图5

3.2 系统模型描述

3.2.1 系统模型架构

由于系统模型中任务的执行模式包括本地执行和卸载到边缘节点，因此系统的动态运行过程如图6所示。

物联网设备需要在轮次i内做出联合动作（ci，ei），其中ci表示任务卸载决策，其具体定义为
$$
c_i =
\begin{cases}
0, & \text{if local execution}, \
n \in N, & \text{if offload to EN } n.
\end{cases}
$$
(3)

此外，ei表示分配的能量单位数量，会影响物联网设备的CPU频率和数据传输速率。而且，ei不能超过能量队列中的能量单位数量，如果ei= 0，则任务不会被执行，仍会保存在任务队列中，只有当ei> 0时，任务才会被执行。另外，物联网设备还具有一个任务队列，当任务队列满时，将无法保存新创建的任务。

3.2.2 本地执行

当任务在本地执行时，时间消耗需满足以下约束
$$ d_m^i = e_i / p_{ex}^i, $$
(4)

其中p_ex^i是物联网设备执行任务的功率。同时，如在[11], p_ex^i可表示为
$$ p_{ex}^i = \tau \cdot f_i^\zeta, $$
(5)

其中τ是一个取决于平均切换电容的常数，ζ是平均活动因子，通常接近3。此外，时间消耗还需满足以下约束条件：
$$ d_m^i = \nu / f_i. $$
(6)

由上文可知，通过求解方程(4)、(5)和(6)，可得到本地执行的时间消耗d_m^i
$$ d_m^i = (\nu^\zeta \cdot \tau e_i)^{\frac{1}{\zeta - 1}}. $$
(7)

3.2.3 在边缘节点执行

如果物联网设备决定将任务卸载到边缘节点，则需要将任务的相关数据传输到边缘节点。因此，需要建立物联网设备与边缘节点之间的关联。如果所需的关联与之前不同，则会发生切换并导致额外延迟。设si表示在轮次i开始时物联网设备与边缘节点之间的关联，其可写为
$$
s_i =
\begin{cases}
s_{i-1}, & \text{if executed locally in the previous epoch}(c_{i-1}= 0), \
c_{i-1}, & \text{if offloaded to EN in the previous epoch}(c_{i-1} \neq 0).
\end{cases}
$$
(8)

此外，还应考虑由于改变EN关联而产生的切换延迟。我们假设切换发生时会有σ秒的延迟，因此切换延迟hi可以表示为
$$
h_i =
\begin{cases}
0, & \text{if no altering EN association}(c_i = s_i), \
\sigma, & \text{if altering EN association}(c_i \neq s_i).
\end{cases}
$$
(9)

此外，还需要对物联网设备与边缘节点之间进行数据传输时的传输速率进行建模。我们用д_n_u表示物联网设备u与边缘节点n ∈ N之间的信道增益，该信道增益被假设为静态且独立地取自有限状态空间Gn。令Lc表示与目标物联网设备ut使用相同信道的所有物联网设备的集合。当为它们建立无线链路时，可实现的数据速率可以计算为
$$ r_i = W \cdot \log_2\left(1+ \frac{д_{n}^{u_t} \cdot p_{tr}^{u_t}}{\sum_{u\in L_c} д_{n}^{u} \cdot p_{tr}^{u} - д_{n}^{u_t} \cdot p_{tr}^{u_t}}\right), $$
(10)

其中p_tr^u表示物联网设备u的发射功率，且p_tr^u满足
$$ p_{tr}^u = e_i / d_{tr}^i \leq p_{tr}^{max}. $$
(11)

因此，数据传输的时间消耗可以表示为
$$ d_{tr}^i = \mu / r_i. $$
(12)

根据[8],中证明的结论，在给定关联关系si ∈ N和在轮次i分配的能量单位ei> 0的情况下，为实现最小传输时间（这在实际中是期望的），传输速率应保持恒定。因此，最小传输时间可通过方程(10)、(11)和(12)求解为
$$ \log_2\left(1+ \frac{д_{c_i}^{i} \cdot e_i}{d_{tr}^i \cdot \sum_{u\in L_c} д_{n}^{u} \cdot p_{tr}^{u} - д_{n}^{u_t} \cdot p_{tr}^{u_t}}\right) = \frac{\mu}{W \cdot d_{tr}^i}. $$
(13)

任务卸载到边缘节点后，该任务将由该边缘节点完成。虽然任务在边缘节点中的执行延迟ds远小于传输延迟d_tr^i，因此将ds设为一个较小的常数。此外，设定占用边缘节点的支付ϕ_i以避免在实际运行中过度使用边缘节点资源。定义π ∈ R+为单位时间价格，则支付表达式可写为
$$ \phi_i = \pi \cdot (\min{h_i + d_{tr}^i + d_s,\delta} - h_i). $$
(14)

3.2.4 更新系统模型参数

通过上述对不同任务处理方式的建模，任务执行延迟可总结如下：
$$
d_i =
\begin{cases}
d_m^i, & \text{if local execution}(e_i> 0 \text{ and } c_i= 0), \
h_i + d_{tr}^i + d_s, & \text{if offloaded to EN to execute}(e_i> 0 \text{ and } c_i \in N), \
0, & \text{if not executed}(e_i= 0).
\end{cases}
$$
(15)

此外，还考虑到并非所有任务在生成后都能立即执行，因此设ρ_i表示在轮次i时任务队列中的排队延迟，其可描述为
$$ \rho_i = q_t^{i - 1}{d_i >0}. $$
(16)

在每一轮次中，我们需要关注物联网设备的任务队列和能量队列的动态变化。具体而言，能量队列长度q_e^i的变化可以描述为
$$ q_e^{i+1} = \min{q_e^i - e_i + a_e^i , q_e^{max}}, $$
(17)

其中，a_e^i ∈ N+表示物联网设备在第i轮次获得的能量单位数量。对于任务队列，我们需要考虑每个轮次中任务的生成与完成情况。类似地，令a_t^i表示在第i轮次生成的任务数量。然后，任务队列长度的动态变化可计算为
$$ q_t^{i+1} = \min{q_t^i -1 {0<d_i \leq \delta} + a_t^i , q_t^{max}} . $$
(18)

然而，当任务队列满时，新生成的任务无法被存储并直接失败。因此，令η_i表示在一轮次i中的计算任务丢弃数量，其可描述为
$$ \eta_i = \max{q_t^i -1 {0<d_i \leq \delta } + a_t^i - q_t^{max} , 0}. $$
(19)

为了更清晰地表达该模型，参数的值和定义如表1所示。

参数	定义	值
D	物联网设备集合	/
N	边缘节点集合	/
W	信道带宽	6.0 × 10⁵ Hz
δ	每个周期的持续时间	5.0 × 10⁻³ s
a_t^i	任务到达指示器	/
μ	任务卸载所需的传输数据大小	3.0 × 10⁴ bit
ν	处理任务所需的CPU周期数	8.375 × 10⁶ cycle
c_i	任务卸载决策	/
e_i	分配的能量单位数量	/
τ	关于平均切换电容的一个常数	1.0 × 10⁻²⁸
f_i	物联网设备分配的CPU频率	/
f_c_max	物联网设备的最大CPU频率	2.0 × 10⁹ Hz
d_m^i	本地任务执行的时间消耗	/
r_i	物联网设备的可实现的数据速率	/
p_tr_max	最大发射功率	2W
p_tr^i	第i轮次的最大发射功率	/
d_tr^i	传输任务数据的时间	/
q_e^{i+1}	物联网设备在第i轮次时的能量队列长度	/
d_s	服务器端执行的延迟	1.0 × 10⁻⁶ 秒
q_t_max	任务队列的最大长度	4
q_e_max	能量队列的最大长度	4
σ	一次切换的延迟	2.0 × 10⁻³ s
h_i	由于改变EN关联而产生的切换延迟	/
q_t^i	在轮次i的任务队列长度	/
η_i	在轮次i的计算任务丢弃数量	/
ρ_i	在轮次i的排队延迟	/
φ_i	计算任务失败的惩罚	/
ϕ_i	占用边缘节点的支付	/
# 边缘计算支持的物联网中多代理的计算卸载

4 由联邦学习协调的策略训练

在本节中，我们首先解释要解决的优化问题并建立问题模型。此外，我们进一步分析了该问题的复杂性，并证明该优化问题是NP难的。之后，我们分析了联邦学习在边缘计算中的优势，并提出了一种基于联邦学习的策略训练算法。最后，我们对所提算法进行了理论分析。

4.1 问题描述

基于第3.1节和第3.2节中描述的系统模型，接下来我们将讨论优化问题。首先，我们定义Xi来表示物联网设备在轮次i期间的网络环境。
$$
X_i = (q_t^i, q_e^i, s_i, д_i) \in X \overset{\text{def}}{=} {0, 1,…, q_t^{max}} \times {0, 1,…, q_e^{max}} \times N \times {\times_{n\in N} G_n},
$$
(20)

其中д_i=(д_n^i：n ∈ N)。物联网设备将在轮次i的初始阶段做出卸载决策，并确定分配的能量单位数量，即
$$
(c_i, e_i) \in J \overset{\text{def}}{=} {{0} \cup N} \times {0, 1,…, q_e^{max}}.
$$
(21)

上述动作的策略定义为Φ，预期长期效用定义为
$$
U(X,\Phi)= E_\Phi \left[ \lim_{I\to\infty} \frac{1}{I} \cdot \sum_{i=1}^{I} u(X_i, \Phi(X_i)) \middle| X_1= X \right],
$$
(22)

其中X1表示初始网络环境，u(·)表示在轮次i中的短期效用，该效用由任务执行延迟di、任务丢弃数量ηi、任务排队延迟ρi以及支付ϕi决定。此外，值得一提的是，该优化策略可根据目标进行个性化调整。例如，如果低延迟是系统中最重要的指标，则可以调整任务执行延迟di和任务排队延迟ρi的权重，以改变延迟在整个效用中的占比。

4.2 复杂度分析

这里，我们可以首先考虑该问题的一个特殊情况。假设在轮次t，任务队列中有N′(q_t_max ≥ N′> 0)个任务，能量队列中有M′(q_e_max ≥ M′> 0)个能量单位。此外，在轮次t之后不再产生新的能量单位和任务。另外，每个任务都在本地设备上执行，并以最大CPU频率f_c_max运行。因此，执行任务k所需的能量单位e′k以及完成任务k所获得的效用u′k将是两个确定的值。

进一步地，d′k∈{0, 1}被定义为任务执行指示符，即d′k= 0表示任务k未被执行，而d′k= 1表示任务k被执行。在这种情况下，该问题转化为：
$$
\max \sum_{k \in N’} d’_k \cdot u’_k,
$$
(23)

受限于
$$
\sum_{k \in N’} d’_k \cdot e’_k \leq M’.
$$
(24)

在这种情况下，我们可以将能量单位M′视为背包的容量，N′个任务视为物品，每个任务所需的能量单位e′k和完成任务所获得的效用u′k分别视为物品的重量和价值。那么，该特殊情况可视为0/1背包问题。由于[20]已证明0/1背包问题是NP难的。因此，该特殊情况也是NP难的。根据[10],，由于特殊情况下的问题是NP难的，故在非特殊情况下的问题也是NP难的。

4.3 在边缘计算中使用联邦学习的原因

上述介绍了计算卸载问题。幸运的是，深度强化学习（DRL）能够很好地处理这类问题；因此，我们采用双深度Q学习（DDQN）[35, 36]以最大化长期效用。此外，我们的策略中还使用了联邦学习（FL），接下来将解释为何使用联邦学习。

尽管深度强化学习能够高效地做出决策，但它会消耗大量计算资源。因此，如何提供计算资源需要被考虑。一方面，如果DRL代理在边缘节点上进行训练，将带来三个缺点：（1）会导致物联网设备与边缘节点之间传输大量数据，从而增加无线信道的传输压力；（2）传输的数据可能包含私有信息，这不利于数据的隐私保护；（3）尽管可以通过某些方式去除数据中的隐私信息，但这会破坏数据的完整性并影响训练效果。

另一方面，如果DRL代理在物联网设备上单独训练，则仍存在两个缺陷：（1）从头开始训练每个DRL代理将耗费过长时间；（2）如果每个DRL代理独立训练，将导致更高的能耗。

因此，深度强化学习将按照图7所示的分布式方式进行训练。然而，由于网络限制以及保护数据隐私的挑战，大多数分布式深度学习技术[26]并不可行。基于上述原因，在所提策略中引入联邦学习用于对深度强化学习智能体进行分布式训练。

示意图6

4.4 基于联邦学习的DRL训练关于计算卸载

由于每个物联网设备在计算卸载过程中需要根据自身的网络环境做出决策，同时也会对网络环境产生影响。因此，我们需要边缘节点来协调各个物联网设备，以优化整体网络环境。

如算法1所示，在每次迭代过程中，会随机选择部分物联网设备执行以下操作：（1）从边缘节点下载DRL代理参数并加载；（2）使用自身获取的数据训练DRL代理；（3）将更新的参数上传至边缘节点进行模型聚合。在设想的物联网系统中，物联网设备需要基于自身获取的本地数据（包括未完成任务数量、剩余能量单元及其自身的网络连接状态等）来训练DRL代理。因此，物联网设备无需上传这些本地数据，只需将更新的参数上传至边缘节点进行聚合，然后从边缘节点下载聚合后的模型参数。此外，一些训练数据不足的物联网设备可以共享DRL代理的训练。

算法1：基于联邦学习的策略训练

1 初始化：
2 初始化边缘节点集合N，物联网设备集合D；
3 初始化{θ_n, θ_d，C_d | n ∈ N，d ∈ D}
4 迭代：
5 对于t= 1, 2,…, T do
6 随机选择m个物联网设备D_t ⊆ D；
7 对于每个d ∈ D_t执行
8 获取关联的边缘节点的权重θ_{t−1} n；
9 更新本地权重θ {t−1} d ⇐ θ {t−1} n；
10 获取本地数据D_t_d;
11 获取权重和训练时间(θ_t_d,C_t_d) ⇐ 训练(θ {t−1} d, D_t_d);
12 上传θ_t_d和C_t_d到边缘节点；
13 end
14 对于每个e ∈ N执行
15 接收来自D_t_n ⊆ D的更新
16 θ_t_n ⇐ ∑ {d∈D_t_n} (C_t_d / ∑_{d∈D_t_n} C_t_d) · θ_t_d;
17 end
18 结束

4.5 基于联邦学习的策略的理论分析

回顾上述基于联邦学习的策略训练，对于在物联网设备上运行的每个代理，首先将获得网络状态X_i=(q_t^i, q_e^i, s_i, д_i) ∈ X，然后根据策略Φ选择动作对(c_i, e_i)，之后将生成新的网络状态X_{i+1}和奖励r_i。该过程可被描述为一个马尔可夫决策过程。

在计算奖励反馈时，距离当前奖励越近就越重要。因此，采用折现未来奖励的方法
$$
R_t = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \cdots + \gamma^{n-t} r_n = r_t + \gamma R_{t+1},
$$
(25)

其中γ= 0.9是折扣因子。之后，通过结合公式（25）可得到贝尔曼方程的基本形式
$$
v(X_t)= E[r_t + \gamma v(X_{t+1}) | X_i= X_t].
$$
(26)

类似地，引入Q函数来描述在特定状态下不同动作的价值。因此，Q(X_j, (c_j, e_j))被定义为表示动作对(c_j, e_j)在状态X_j下的值。
$$
Q(X_{j+1}, (c_{j+1}, e_{j+1})) = E[r + \lambda Q(X_j, (c_j, e_j))]
$$
(27)

然而，由于使用了贪婪方法来计算Q函数，Q函数的计算结果可能过于接近先前计算出的局部最优Q函数，从而导致较大的偏差，也称为过高估计。为了解决过高估计问题，双深度Q学习将动作选择与Q函数的计算解耦[35]。首先，通过当前网络找到对应于最大Q函数的动作对(c_max, e_max)，然后通过目标网络计算Q函数。此外，在理论证明中，此处忽略了神经网络近似所引起的偏差，即
$$
Q(X’, (c’, e’)) = Q(X_j, (c_j, e_j)) + \alpha(u(X_j, \Phi(X_j)) + \gamma \cdot Q(X’, (c_{max}, e_{max})) - Q(X_j, (c_j, e_j))),
$$
(28)

其中α= 0.005是学习率，X′、c′和e′分别表示下一个周期的X_j、c_j和e_j。基于上述推理，可进一步分析该算法的收敛性，即：

定理4.1。 如果满足以下条件，运行在物联网设备上的算法1中的每个代理将按照方程（28）进行更新时，以概率为一（w.p.1）收敛到最优Q（X∗,（c∗, e∗））。

(1) 状态和动作空间是有限的；
(2) ∑ {t=0}^{∞} α = ∞, ∑ {t=0}^{∞} (α)^2 < ∞；
(3) Var{u(X_j, Φ(X_j))}是有界的。

证明。 在证明中，首先使用了[17]中给出的随机逼近结果。

引理4.2。 一个定义为Δ_{j+1}(x)的随机迭代过程，
$$
Δ_{j+1}(x) = (1 - α_j(x)) Δ_j(x) + β_j(x) Ψ_j(x),
$$
(29)

收敛es趋于零且概率为一（w.p.1）当且仅当满足以下条件时d:

(1) 状态空间是有限的；
(2) ∑ {j=0}^{∞} α_j = ∞, ∑ {j=0}^{∞} (α_j)^2 < ∞, ∑ {j=0}^{∞} β_j = ∞, ∑ {j=0}^{∞} (β_j)^2 < ∞，且E{β_j(x) | Λ_j} ≤ E{α_j(x) | Λ_j}几乎处处一致；
(3) ‖E{Ψ_j(x) | Λ_j}‖_W ≤ ϱ‖Δ_j‖_W，其中ϱ ∈ (0, 1)；
(4) Var{Ψ_j(x) | Λ_j} ≤ C(1+ ‖Δ_j‖_W)^2,，其中C> 0为常数。

注意Λ_j={Δ_j, Δ_{j−1},…,Ψ_{j−1},…, α_{j−1},…, β_{j−1}}表示时隙j的历史。‖·‖_W表示某种加权最大范数。

后续证明可以围绕引理4.2展开，包括将形式变换为方程(29)以及引理4.2中的四个条件。

a. 变换方程形式。 首先，我们可以将方程(28)重写为以下形式：
$$
Q(X’,(c’, e’)) = (1 - α) · Q(X_j,(c_j, e_j)) + α · (u(X_j, Φ(X_j)) + γ · Q(X’,(c_{max}, e_{max}))).
$$
(30)

通过从方程(30)的两边减去最优Q(X∗,(c∗, e∗))，可将其重写为以下形式：
$$
Δ_j(X,(c, e)) = (1 - α_j) Δ_j(X,(c, e)) + α_j Ψ_j(X,(c, e)),
$$
(31)

其中
$$
Δ_j(X,(c, e)) = Q(X’,(c’, e’)) - Q(X∗,(c∗, e∗)),
$$
(32)
$$
Ψ_j(X,(c, e)) = u(X_j, Φ(X_j)) + γ · Q(X’,(c_{max}, e_{max})) - Q(X∗,(c∗, e∗)).
$$
(33)

因此，方程(31)可视为引理4.2中的方程(29)，然后通过证明引理4.2的全部四个条件均已满足来证明定理4.1。

b. 引理4.2中的条件(1)。 对于引理4.2中的条件(1)，可通过定理4.1中的条件(1)证明。

c. 引理4.2中的条件(2)。 引理4.2中的条件(2)也可以很容易地证明。由于α和β在公式(29)中对应于公式(31)中的学习率α ∈ (0,1)，该条件满足。

d. 引理4.2中的条件(3)。 为了证明引理4.2中的条件(3)，引入了压缩映射的概念，然后我们证明Ψ_j(X,(c,e))是一个压缩映射。

定义4.3。 对于映射H : χ → χ以及任意的x1, x2 ∈ χ，如果存在一个常数δ ∈ (0, 1)，满足以下方程，则该映射H为压缩映射：
$$
‖Hx1 - Hx2‖ ≤ δ‖x1 - x2‖
$$
(34)

结合公式(27)，最优的Q(X∗,(c∗, e∗))可表示为
$$
Q(X∗,(c∗, e∗)) = E[u(X∗, Φ(X∗)) + λQ(X’,(c_{max}, e_{max}))].
$$
(35)

然后，进一步将映射H定义为
$$
Hq(X’,(c’, e’)) = E[u(X_j, Φ(X_j)) + λq(X’,(c_{max}, e_{max}))].
$$
(36)

然后，结合绝对值不等式和无穷范数的定义性质，可通过以下计算证明H是一个压缩映射：
$$
\left| Hq_1(X’,(c’, e’)) - Hq_2(X’,(c’, e’)) \right| \infty = E[\lambda q_1(X’,(c {max}, e_{max})) - \lambda q_2(X’,(c_{max}, e_{max}))] \leq E[\lambda |q_1(X’,(c_{max}, e_{max})) - q_2(X’,(c_{max}, e_{max}))|] \leq E[\lambda \arg\max_{(c’, e’)} |q_1(X’,(c’, e’)) - q_2(X’,(c’, e’))|] = \lambda |q_1(X’,(c’, e’)) - q_2(X’,(c’, e’))|_\infty
$$
(37)

根据公式(36)和(33)，E{Ψ_j(x)}可以表示为
$$
E{Ψ_j(x)} = E{u(X_j, Φ(X_j)) + γ · Q(X’,(c_{max}, e_{max})) - Q(X∗,(c∗, e∗))} = HQ(X’,(c’, e’)) - Q(X’,(c’, e’)) = HQ(X’,(c’, e’)) - HQ(X∗,(c∗, e∗)).
$$
(38)

公式(38)的最后一步是因为Q(X’,(c’, e’))是一个常数。最后，我们可以通过公式(39)证明引理4.2中的条件(3)成立。在公式(39)的计算过程中，第一步可由公式(38)推导得出，第二步可由公式(34)推导得出，最后一步可由公式(32)推导得出。
$$
\left| E{Ψ_j(x)} \right| \infty = \left| HQ(X’,(c’, e’)) - HQ(X∗,(c∗, e∗)) \right| \infty \leq δ \left| Q(X’,(c’, e’)) - Q(X∗,(c∗, e∗)) \right| \infty = δ \left| Δ_j(X,(c, e)) \right| \infty
$$
(39)

e. 引理4.2中的条件(4)。 接下来是引理4.2中条件(4)的证明。以下计算使用了公式(33)、公式(36)以及方差的性质。
$$
Var{Ψ_j(X,(c, e))} = E{u(X_j, Φ(X_j)) + γ · Q(X’,(c_{max}, e_{max})) - Q(X∗,(c∗, e∗)) - HQ(X’,(c’, e’)) + Q(X∗,(c∗, e∗))} = E{u(X_j, Φ(X_j)) + γ · Q(X’,(c_{max}, e_{max})) - HQ(X’,(c’, e’))} = E{u(X_j, Φ(X_j)) + γ · Q(X’,(c_{max}, e_{max})) - E[u(X_j, Φ(X_j)) + γ · Q(X’,(c_{max}, e_{max}))]} = Var{u(X_j, Φ(X_j)) + γ · Q(X’,(c_{max}, e_{max}))} \leq C(1+ |Δ_j(X,(c, e))|_\infty),
$$
(40)

其中C为常数，上述计算的最后一步成立是因为u(X_j, Φ(X_j))是有界的，且Q(X’,(c_{max}, e_{max}))至多呈线性增长。

上述证明过程已证明引理4.2中的四个条件均满足，基于此可证明定理4.1。

参数	值
全连接层数量	2
神经元数量	200
激活函数	tanh
折扣因子	0.9
回放记忆容量	5,000
目标网络的更新间隔Q	250

5 性能评估

在本节中，我们进行了一些模拟实验，以探讨各种参数对基于联邦学习的深度强化学习训练的影响，以及基于联邦学习的深度强化学习训练和集中式深度强化学习训练的性能。

5.1 实验设置

为了评估我们提出的方法的能力，我们模拟了一个边缘计算系统。物联网设备与边缘节点之间的网络连接信道增益定义为六个级别。此外，DRL代理的设置如表2所示。

5.2 探索概率分析

在双深度Q学习中使用了一种称为ϵ−greedy的策略，该策略与贪婪策略类似。由于未出现过的状态‐动作对没有对应的Q值，如果直接使用贪婪策略，则这些组合将永远不会被尝试，因此引入了探索与利用的概念。一方面，我们必须力求从已知信息中最大化效用；另一方面，必须探索环境中未知的内容。ϵ−greedy在贪婪策略的基础上增加了探索率。对于每个决策，都有一定概率随机选择动作进行探索，也有一定概率采用贪婪策略以最大化效用。

因此，我们首先在实验中探究了探索概率对效用的影响。

我们选择了三个探索概率值进行测试，并进行了100次实验以收集统计数据。在图8中，实线及其周围的浅色区域分别表示平均值和标准差。可以发现，当探索概率= 0.01时，效用的平均值最高，且标准差最小。当探索概率= 0.6时，效用的平均值会略有下降，标准差将增大。当探索概率= 0.99时，效用的平均值将大幅降低，标准差的范围将进一步增加。

可以看出，较高的探索概率会对物联网设备的性能产生负面影响。这是因为在大多数情况下，物联网设备选择进行探索，而未能充分利用之前的训练结果，从而导致性能不佳。基于该结果，我们在后续实验中将最终的探索概率设定为0.01。

示意图7

5.3 任务生成概率分析

当应用物联网设备时，部分物联网设备的工作负载较重，而另一些物联网设备则相对空闲。即使对于单个物联网设备，其工作负载在不同时段也会发生显著变化。因此，我们进一步探讨了工作负载的影响。

示意图8

在不同的任务生成概率下，所提算法的性能如图9所示。当任务生成概率为= 0.1时，物联网设备可以实现较高的效用，且效用的标准差较小，即性能非常好且稳定。当任务生成概率为= 0.5时，物联网设备的工作负载将

示意图9

工作负载相对较重。在训练初期，效用较低且标准差较大，即性能较差且不稳定。然而，随着训练的进行，效用稳定在较高水平，标准差也显著减小。当任务生成概率为= 0.9时，物联网设备的工作负载极重，整体效用值非常低。可以发现，当探索概率较高时，所提算法的性能会更差且更加不稳定。换句话说，较高的探索概率会对性能产生负面影响。这可能是由于物联网设备性能的限制，因为较高的探索概率会产生大量物联网设备无法应对的任务，导致较高的排队延迟和大量的任务失败。此外，由于物联网设备能量有限，繁重的任务会导致每个任务分配到的能量很少甚至没有，从而限制了物联网设备的性能。然而，经过一段时间的训练后，物联网设备的效用值得到了提升并稳定在相对较高的水平，证明了该算法在重负载下的有效性。

为了进一步探究所提算法在不同工作负载下的性能，我们选取了排队延迟、卸载支付、任务执行延迟和任务丢弃数量四个关键参数进行对比。图10展示了算法在不同工作负载下的性能表现。当任务生成概率为= 0.1时，物联网设备需要处理的任务较少，在各项关键参数上表现良好。当任务生成概率为= 0.5时，物联网设备的工作负载增加，各项关键参数开始上升。然而，任务丢弃数量的增加较小，这意味着物联网设备在当前工作负载下仍能完成大部分任务。当任务生成概率为= 0.9时，物联网设备的工作负载进一步增加，导致关键参数的表现变差。

总之，图9和图10展示了单个物联网设备在自身工作负载变化时的性能，这证实了我们的方法能够适应工作负载的变化并实现收敛。

5.4 能量生成概率分析

物联网设备部署条件的差异可能导致它们面临不同的能量生成概率。因此，为了测试算法在不同能量生成情况下的性能，我们进行了以下实验。

不同能量生成概率下的性能如图11所示。当能量生成概率= 0.1时，物联网设备获取能量的速度非常慢，导致能量短缺，从而效用水平较低。当能量生成概率为= 0.5时，物联网设备获取能量的速度明显提高。此外，整体效用显著提升，并呈现出逐渐增加并最终趋于稳定的趋势。当能量激活概率为= 0.9时，物联网设备的能量更加充足。效用进一步提高，标准差减小，即物联网设备的性能更好且更稳定。可以看出，能量生成概率越高，物联网设备的能量越充足，因此可以使用更高的功率执行任务，整体性能也更好。

为了更紧密地比较所提算法在不同能量环境下的性能，我们选择了一些关键参数进行对比。在不同的能量生成概率下，所提算法的性能如图11所示。当能量生成概率= 0.1时，排队延迟、任务丢弃数量和任务执行延迟非常高，这可能是由于能量不足，导致任务无法及时完成。然而，此时的卸载支付非常低，这意味着大多数任务是在本地执行，而不是被转移到边缘节点。当能量生成概率= 0.5时，物联网设备拥有更多的可用能量，卸载支付进一步提高，而其他参数则有所降低。这表明更多的任务被转移到边缘节点，且任务执行

示意图10

示意图11

更快。当能量生成概率= 0.9时，物联网设备的能量充足。在这种情况下，更多的任务被转移到边缘节点执行，所提算法表现更优。因此可以看出，能量生成概率越高，提交到边缘节点运行的任务越多。也就是说，与物联网设备的本地执行相比，将任务转移至边缘节点会消耗更多能量，但能获得更强大的任务处理能力。

因此，实验表明，所提出的算法能够适应不同的能量以生成概率并实现收敛。

5.5 物联网设备数量分析

当基于联邦学习的深度强化学习训练运行时，将在该区域使用多个物联网设备进行训练。然而，所使用的物联网设备数量难以确定，因此接下来将探讨不同数量的物联网设备的影响。

实验选择了不同数量的物联网设备进行测试，并收集了它们的效用作为比较。如图13所示，所有设备的效用在初期均呈上升趋势，在后期趋于稳定。然而，不同数量的物联网设备也会对其效用产生影响。一方面，当物联网设备数量较少时，其效用在初期增长相对较慢；另一方面，对于不同的物联网设备而言，尽管后期所有效用都会稳定在同一水平，但设备数量会影响效用的标准差。当物联网设备数量较少时，效用的标准差较大，即更多的物联网设备会使性能更加稳定。我们认为，当物联网设备数量较多时，在相同的训练周期内可以学习到更多的环境状态，从而促进物联网设备在初期的训练进展。因此，在初期物联网设备越多，性能越好。然而，在训练收敛之后，物联网设备越多，其性能反而越差。

这可能是因为不同的物联网设备面临不同的环境状态，因此它们的模型参数并不适用于所有物联网设备，即聚合处于不同环境状态下的物联网设备的模型参数无法产生最优结果。

示意图12

为了深入探究不同物联网设备数量的影响，我们在更详细的参数上进行了实验。如图14所示，在对比某一物联网设备训练收敛与非收敛情况时，可以发现训练收敛后卸载支付略有增加，但其他所有参数均有所下降。出现这种情况的原因可能是训练收敛后边缘节点的使用增加，因此使用边缘节点的成本上升，而其他参数得到优化。此外，对于不同数量的物联网设备的情况，在训练收敛后它们处于同一水平。

总之，物联网设备越多，训练过程中的收敛速度越快，即早期阶段的性能越好。然而，在训练收敛后，不同物联网设备的性能处于相同水平。

示意图13

5.6 能耗分析

对于物联网设备而言，许多设备使用电池作为电源，因此在能量方面通常存在一些限制。因此，能耗是需要考虑的一个参数。如图15所示，基于联邦学习的深度强化学习训练和集中式深度强化学习训练的能耗均高于贪婪策略。原因可能是需要消耗更多能量以减少任务丢弃数量和任务执行延迟。此外，基于联邦学习的深度强化学习训练的平均能耗与集中式深度强化学习训练相当，但标准差相对较小。

总之，我们所提算法可能导致更高的能耗，这可能是由于本地执行或数据传输的功率较高所致。在这种情况下，尽管能耗可能处于较高水平，但在时间延迟、任务丢弃数量等方面得到了改善。此外，值得一提的是，基于联邦学习的深度强化学习训练和集中式深度强化学习训练的能耗处于同一水平。

示意图14

5.7 系统模型中关键参数的分析

为了深入比较基于联邦学习的深度强化学习训练与集中式深度强化学习训练的特性，选取了系统模型中的一些关键参数进行对比，首先是任务执行延迟。任务执行延迟是指任务离开任务队列到完成，包括建立连接的时间、传输任务数据的时间以及执行任务的时间。基于联邦学习的深度强化学习训练和集中式深度强化学习训练的任务执行延迟如图16所示。

可以看出，基于联邦学习的深度强化学习训练的任务执行延迟高于集中式深度强化学习训练的任务执行延迟，但两者在初期下降后均保持稳定。值得注意的是，基于联邦学习的深度强化学习训练在早期阶段任务执行延迟下降更多，且更快达到稳态，即基于联邦学习的深度强化学习训练具有更快的收敛速度。

此外，对比了基于联邦学习的深度强化学习训练和集中式深度强化学习训练的排队延迟。排队延迟是指任务从进入任务队列到离开任务队列所经历的时间。基于联邦学习的深度强化学习训练和集中式深度强化学习训练的排队延迟如图17所示。

基于联邦学习的深度强化学习训练的排队延迟通常低于集中式深度强化学习训练，但总体上基于联邦学习的深度强化学习训练的排队延迟更高。

接下来是基于联邦学习的深度强化学习训练与集中式深度强化学习训练的任务丢弃数量对比。任务丢弃数量是指当任务队列中新生成的任务数量达到上限时丢失的任务数量。基于联邦学习的深度强化学习训练与集中式深度强化学习训练的任务丢弃数量如图18所示。

基于联邦学习的深度强化学习训练的任务丢弃数量在初期远高于集中式深度强化学习训练，但其任务丢弃数量迅速下降，最终稳定在接近集中式深度强化学习训练的水平。总体来看，二者在初期均显著减少，表明训练的有效性，但基于联邦学习的深度强化学习训练的任务丢弃数量仍高于集中式深度强化学习训练。这可能是由于基于联邦学习的深度强化学习训练的排队延迟和任务执行延迟较高，导致任务队列中的许多任务无法及时完成。因此，基于联邦学习的深度强化学习训练中的任务队列更容易满溢，从而造成任务丢失。

此外，由于边缘节点的计算资源有限，还记录了基于联邦学习的深度强化学习训练和集中式深度强化学习训练的卸载支付。卸载支付是指使用边缘节点所需的支付，其值与占用时长呈正相关。如图19所示，基于联邦学习的深度强化学习训练和集中式深度强化学习训练的卸载支付总体上相对稳定，但基于联邦学习的深度强化学习训练在边缘节点上占用的时间更长。

示意图15

示意图16

示意图17

示意图18

本部分实验详细比较了集中式深度强化学习训练、基于联邦学习的深度强化学习训练以及贪婪策略在多个关键参数上的表现。其中一个显著特点是，基于联邦学习的深度强化学习训练会将更多的任务转移至边缘节点执行，从而导致关键参数的变化。

5.8 计算卸载性能分析

由于集中式深度强化学习训练是所提策略的基准，我们进一步与其进行了比较。

随机选取三个物联网设备进行调查，图20(a)–20(c)和图21(a)分别展示了支持联邦学习的DRL训练和集中式DRL训练的性能。相应地，它们的训练损失统计分别在图20(d)–20(f)和图21(b)中给出。

性能评估通过实验结果的比较得出如下结论。（1）显然，集中式训练的训练标准差小于基于联邦学习的深度强化学习训练。这表明集中式训练在训练过程中具有更好的稳定性。此外，随着训练的进行，基于联邦学习的深度强化学习训练的效用和标准差持续缩小，最终达到与集中式训练相同的水平。该实验结果验证了基于联邦学习的深度强化学习训练能够达到与集中式训练相同水平的性能，并验证了其有效性。（2）由于假设集中式训练中的无线信道可以无损地将训练数据上传至边缘节点且不会造成延迟。实际上，这是不可能的，这也进一步证明了基于联邦学习的深度强化学习训练的有效性。在此假设下，一旦经过一段时间的训练，基于联邦学习的深度强化学习训练即可达到与集中式训练相同水平的性能。因此，在实际情况中，集中式训练的性能将会更差。

此外，联邦学习（FL）存在两个缺点。一方面，基于联邦学习的深度强化学习训练不仅在训练期间表现不佳，而且需要更长时间才能收敛。另一方面，与集中式训练相比，基于联邦学习的深度强化学习训练处于同一水平但相对较差。因此，如何对数据传输的调度进行细粒度优化可作为未来工作的研究方向。

6 结论

在本文中，我们研究了一个计算卸载优化问题。具体而言，每个物联网设备可以自主决策卸载任务和能量分配，以最大化预期的长期效用。为此，我们提出了一种基于联邦学习（FL）和深度强化学习（DRL）的卸载算法，并在多个物联网设备上并行运行。一方面，DRL使每个物联网设备能够根据自身的动态环境独立做出决策；另一方面，FL进一步减少了物联网设备与边缘节点（EN）之间的传输开销，并显著增强了数据的隐私保护。此外，我们还对该算法进行了必要的理论分析，并实施了一系列模拟实验。实验结果表明所提算法适用于各种环境，并验证了基于联邦学习的深度强化学习的有效性。未来，我们将深入研究是否存在针对深度强化学习的模型压缩技术，以及如何以细粒度方式调度基于联邦学习的深度强化学习训练。

您可能感兴趣的与本文相关的镜像