基于MADDPG的AR任务卸载优化

原创于 2025-10-06 03:24:40 发布 · 411 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#移动边缘计算 #深度强化学习 #增强现实

基于深度强化学习的移动边缘网络中增强现实任务卸载与资源分配联合优化

摘要

移动边缘计算（MEC）已被认为是5G中的新兴技术，可为超可靠低延迟通信（URLLC）应用提供强大的计算能力。本文考虑一种支持多用户的无线网络，通过将计算任务卸载到MEC服务器，以降低增强现实（AR）应用中用户终端的时延和能耗。研究了资源分配与任务卸载的联合优化问题，旨在满足延迟要求和有限资源约束下最小化每个用户的能耗。我们提出一种基于多智能体深度确定性策略梯度（MADDPG）的深度强化学习算法来解决该问题。仿真结果表明，所提出的算法能够显著降低用户的能耗。

关键词 ‐移动边缘计算；深度强化学习；增强现实；

一、引言

增强现实（AR）是一种将虚拟信息与真实世界融合的技术。由于其强大的感官体验，该技术被广泛应用于各个领域。然而，高时效性且计算密集型的增强现实应用给传统通信系统带来了巨大挑战[1]。为应对这些挑战，欧洲电信标准协会（ETSI）提出了移动边缘计算（MEC）的概念[2][3]。MEC在边缘网络为应用开发者和内容提供商提供缓存[4]和云计算能力，以及IT服务环境。MEC服务器强大的存储和计算能力可减少数据传输过程中的长传输延迟、带宽浪费、能耗以及隐私泄露。MEC服务器部署于核心网络边缘，靠近用户终端。因此，大量计算任务可卸载至MEC服务器进行处理，而无需访问远程中心云。这样可显著降低用户终端的时延和能耗。

基于上述描述，合理的任务卸载方案成为一个关键问题。在设计任务卸载方案之前，应考虑任务建模问题。在当前的研究工作中，任务建模方法可以总结如下：1）将任务整体建模为一个固定块[5][6]，其优点是易于设计卸载算法。2）将任务划分为固定大小的块[7]，其优点是能够合理利用资源。3）将任务任意划分为多个块[8][9]，其优点是能够合理利用资源。但在实际应用中，任务不能随意划分。任务需根据特定的内部组件功能进行划分，且组件之间的依赖关系是确定的。

优化目标的设定在卸载方案设计中起着关键作用。通常，延迟和能耗被选为优化目标。考虑了一种基于正交频分复用接入（OFDMA）的多用户和多MEC服务器系统，以最小化总能耗[10]。文献[11]提出了一种新颖的多用户全双工通信系统，该系统结合了MEC和同时无线信息与功率传输（SWIPT）技术，以降低系统的能耗。研究了单小区和多小区MEC网络场景，并将智能设备电池的剩余能量引入到能耗与时延的权重因子定义中[12]。除了时间延迟和能耗外，还有一些其他的优化设置。文献[13]以满足截止时间的任务数量为目标。文献[14]提出了一种云‐MEC协同计算问题，其优化目标是最大化系统效用（时延和价格）。[15]构建了一个联合优化问题，旨在最小化系统范围的计算开销。[16]提出了一种时间平均计算速率最大化（TACRM）算法，能够实现无线资源与计算资源的联合分配。上述所有研究工作均致力于优化系统的能耗或所有用户的总能耗。但在现实生活中，每个用户只关心自身设备的功耗，而不会关注其他用户的能耗。

根据上述分析，我们将增强现实应用程序按照其内部功能划分为五个子任务，并这些子任务之间存在一定的依赖关系。优化目标是尽可能最小化每个用户的终端能耗。因此，该问题可以视为资源分配与任务卸载的联合优化，是一种合作与竞争的混合问题。本文的贡献可总结如下：1）更具体和详细的任务建模；2）更贴近实际的优化目标设定；3）基于深度强化学习的资源分配与任务卸载联合优化算法。

本文的其余部分组织如下：第二节回顾了相关工作的研究进展。第三节构建了增强现实应用、通信和计算模型。第四节建立了数学问题，将联合优化问题视为马尔可夫决策过程（MDP），并给出了MDP的若干要素，提出了基于MADDPG框架的联合优化算法。第五节提供了仿真结果，并对所提出的算法性能进行了评估。最后，第六节总结了全文。

II. 系统模型

本文考虑了一种场景，其中 U个增强现实客户端可以通过将部分任务卸载到MEC服务器来同时执行不同的增强现实应用，并提出了系统模型，以在满足增强现实应用延迟要求的同时最小化每个用户的能耗。

示意图0

如图1所示，该系统主要由MEC服务器、基站和用户终端组成。我们分别用 Γ、 n ∈{1, 2,…, N}、u ∈{1, 2,…, U}表示MEC服务器、基站集合和用户集合。其框架关系为一个MEC服务器覆盖多个基站，一个基站覆盖多个用户终端。MEC服务器具有强大的计算能力，用于处理部分卸载的任务。基站承担任务的转发功能。我们假设每个用户终端在每次决策过程中仅运行一个增强现实应用。当网络状态和任务数据量发生变化时，系统将进行一次决策。该系统模型包含三个部分：增强现实任务模型、通信模型和计算模型，如下所述。

A. AR应用模型

为了合理利用资源，一个增强现实应用被划分为五个子任务：（a）视频源，用于从摄像头获取原始视频帧；（b）跟踪器，用于跟踪用户相对于环境的位置；（c）建图器，用于构建环境的模型；（d）物体识别器，用于识别环境中已知的物体；（e）渲染器，用于准备处理后的帧以供显示，在增强现实应用中起着关键作用[17]。视频源和渲染器组件必须在本地执行，因为收集和显示的数据只能在用户终端上完成。图2展示了增强现实任务模型的五个子任务。每个子任务按顺序执行，前一个子任务的输出数据作为下一个子任务的输入。设 k ∈{1, 2, 3, 4, 5}表示增强现实应用的第 k个子任务。为了描述每个子任务的参数上下文，我们定义一个元组表示 φk u=(ωk u, ϕk u)。具体而言， ωk u和 ϕk u分别是用户 u请求的增强现实应用第 k个子任务的输出数据大小和计算负载。 ωk u与ϕk u之间的关系表示为 ϕk u= ηk • ωk u，其中 ηk u表示每比特的计算负载。延迟在增强现实应用的体验中起着重要作用，因此设置了时延限制Tu。如果增强现实应用的时间延迟超过 Tu，则无法获得用户 u的良好体验。

本文中使用的主要符号在表I中进行了总结。

参数	描述
n	基站索引
u	用户终端索引
U	用户数量
B	基站带宽
k	k‐th subtask of AR application
ω k u	增强现实应用的第 k‐th个子任务的输出数据大小由用户 u 请求
ϕ k u	增强现实应用的第 k‐th个子任务的计算负载由用户 u 请求
T u	由用户 u 请求的增强现实应用的时延限制
η k u	增强现实应用中第 k个子任务的计算量与数据量之比由用户 u 请求的增强现实应用用户
p UT u	用户终端 u 的发射功率
p BS n	基站 n 的发射功率

B. 通信模型

本文考虑采用正交频分多址作为多址接入技术的系统，其中系统带宽B被划分为 U个相等的子带。为了保证与同一基站相关联的用户之间传输链路的正交性，每个用户被分配到一个子带。设 puUT和 pnBS分别表示用户终端 u和基站 n的发射功率。 hup u和 hdown u分别表示基站与用户 u之间的上行链路和下行链路信道增益。则上行链路和下行链路的传输速率可以计算为

$$ rup u,\vartheta = Bup u,\vartheta \log_2(1+ \frac{puUT hup}{\delta^2}) $$ (1)

$$ rudo,\vartheta wn = Bdown u,\vartheta \log_2(1+ \frac{puBS hdown}{\delta^2}) $$ (2)

其中δ²表示噪声功率； $\vartheta$ ∈{1, 2, 3, 4}表示子任务之间的传输链路，即 $\vartheta$ = 1表示子任务1和2之间的上行链路，且不存在下行链路，因为子任务1只能在本地执行； $\vartheta$ = 2表示子任务2和3之间的上行链路和下行链路；Bup u,$\vartheta$和B down u$\vartheta$,表示分配给用户 u的第 $\vartheta$条链路的上行链路和下行链路信道带宽，其受限于

$$ \sum_\vartheta Bup u,\vartheta \leq Bup u = B\alpha R $$ (3)

$$ \sum_\vartheta Bdown u,\vartheta \leq Bdown = B\hat{\alpha} R $$ (4)

其中 α、ˆα ∈[0, 1]表示上行链路和下行链路系统带宽的利用率。因此，上行链路传输的时间延迟t up u,$\vartheta$以及终端能耗e up u,$\vartheta$可通过以下公式计算：

$$ t^{up} {u,\vartheta} = \frac{\omega^\vartheta_u}{r^{up} {u,\vartheta}} $$ (5)

$$ e^{up}_{u,\vartheta} = \omega^\vartheta_u \rho $$ (6)

其中 ρ表示用户终端每发送一比特的能耗。下行链路传输的时间延迟t down u$\vartheta$,通过以下方式计算

$$ t^{down} {u,\vartheta} = \frac{\omega^\vartheta_u}{r^{down} {u,\vartheta}} $$ (7)

本文未考虑用户终端接收数据时的能耗。

示意图1

C. 计算模型

本文重点研究用户终端与MEC服务器之间的协同任务执行。具体而言，除视频源和渲染器外，每个子任务均可根据为其分配的计算资源和通信资源选择在本地执行或卸载至MEC服务器。接下来分别详细描述这两种情况。

1) MEC处理 ： MEC服务器的总计算资源由 F MEC 定义。令 f k u表示 F MEC为用户 u分配的第 k个子任务的计算资源。如果用户的第k个子任务在MEC服务器上执行，则时间延迟tuM Ek C，可由以下公式计算：

$$ tuM,EkC = \frac{\phi_k^u}{f_k^u} $$ (8)

2) 用户终端处理 ：用户 u的总计算资源由F UT u定义。令 huk表示用户终端设备为第 k个子任务分配的计算资源。如果用户 u的第 k个子任务在用户终端上执行，则时间延迟tuU T，k和终端能耗euU T，k可由以下公式计算：

$$ tuU,Tk = \frac{\phi_k^u}{h_k^u} $$ (9)

$$ euU,Tk = \kappa(h_k^u)^2\phi_k^u $$ (10)

其中 κ是能量系数，取决于芯片架构。在本文中，根据 [8],中的研究，我们设定 κ= 10⁻²⁵。

III. 任务卸载与资源分配联合优化

A. 问题建模

根据上述分析，增强现实应用的执行过程被建模为一个加权有向图Gu=(Vu, Lu) =({V MEC u , VuUT}, {Lup , Ldown u , Lhold u})，如图3所示。 Vu, Lu分别表示Gu中的顶点集合 v和弧 l。 VuMEC, VuUT分别表示MEC层和本地用户终端层的顶点集合。 Lup u ,Ldown u 和 Lhold u 分别表示上行链路、下行链路和无链路的集合。无链路意味着两个相邻子任务在同一位置执行。gu被定义为能够完成增强现实应用的一条路径上的顶点集合，由v UT g u 和 v MEC g u 组成。v UT g u 表示路径gu中本地用户终端层的顶点集合。 v MEC g u 表示路径gu中MEC层的顶点集合。

因此，用户 u 的总时延和总能耗计算如下

$$ t_{g_u} = \sum_{s,c \in g_u}(t_{s,c}^u)+\sum_{v \in g_u}(t_{u,v}) $$ (11)

$$ e_{g_u} = \sum_{s\in g_u^{UT}, c\in g_u^{MEC}} e_{u,s,c} + \sum_{v\in g_u} e_{u,v} $$ (12)

其中 s和 c表示一条弧的起始顶点和结束顶点。 ts, c u,es, c eu,v分别表示在顶点 v的执行时间与能耗。

接下来，我们将给出资源分配与任务卸载联合优化问题的表述。该数学模型的目标是最小化每个用户终端的能耗，并满足系统资源和体验质量的约束条件，具体如下：

$$ \max_{Bup u,l,B down u,l,fuv,hvu,gu} e_{g_u}, \forall u \in {1, 2,…, U} $$

s.t.

(c1) $ t_{g_u} \leq T_u $

(c2) $ \sum_{l\in L^{up} u} Bup {u,l} \leq B^{up} $

(c3) $ \sum_{l\in L^{down} u} Bdown {u,l} \leq B^{down} $

(c4) $ \sum_u \sum_{v\in V^{MEC}_u} f_l^u \leq F^{MEC} $

(c5) $ \sum_{v\in V^{UT}_u} h_v^u \leq F^{UT} $

(13)

对于约束条件，约束(C1)表示增强现实应用的执行延迟不超过时延限制，以确保服务体验质量。约束(C2)表示分配给五个子任务的上行传输资源总量不得超过用户终端的上行传输资源。约束(C3)表示分配给五个子任务的下行传输资源总量不得超过用户终端的下行传输资源。约束(C4)表示分配给所有用户的五个子任务的计算资源总和不得超过MEC服务器的计算资源。约束(C5)表示五个子任务的计算资源之和不得超过用户终端的计算资源。

示意图2

B. 深度强化学习

问题(13)是一个多用户协作与竞争的马尔可夫决策过程(MDP)，通过基于MADDPG的深度强化学习算法求解。MADDPG由深度Q网络和Actor‐Critic算法组成。MADDPG学习框架采用AC方法，包含两部分：执行者网络和评论者网络。每个执行者和评论者网络均由目标网络和评估网络组成。执行者网络用于生成用户动作，评论者网络用于评估动作。

1) 马尔可夫决策过程 ：在时刻 t，MDP的状态、动作和奖励分别定义为St=(s1, s2,…, sU)、 At=(a1, a2, …, aU)和 Rt=(r1, r2,…, rU)。 su表示用户 u的状态，包含其他用户的视频帧大小、上下行网络状况以及 MEC服务器的计算资源。 au表示用户 u的动作，包含计算资源和通信资源的分配。 ru表示用户 u的奖励，包含任务完成奖励、体验质量奖励和能耗奖励，对应于问题(13)的约束条件和目标。

2) 训练过程 ：将状态 su输入至执行者网络 μu以获得动作 au，该动作 au作用于环境以获取奖励 ru和新状态s′ u。所有用户的状态 St和动作 At被输入到评论者网络Qu以获得 Q值。在训练前，数据(St, At, St+1, Rt)被存储在回放缓冲区 Φ中，直到达到一定数量。训练开始后，从回放缓冲区 Φ中采样一个最小批次用于训练。评论者网络根据估计的 Q值和实际的 Q值进行训练，如下所示：

$$ Loss_u = \frac{1}{X}\sum_j (y_j^u - Q_u(S^j, a^j_1, a^j_2,…, a^j_U))^2 $$ (14)

$$ y_j^u = r_j^u + \gamma Q’ u(S’^j, a’^j_1,…, a’^j_U)| {a’^j_k=\mu’_u(s’^j_k)} $$ (15)

其中 X表示小批量数据的大小， Sj= {s j 1 , s j 2 ,…, s j U} S′j= {s ′j 1 j s ′j 2 … s ′j U} j 表示小批量数据的第‐个状态，,,,表示小批量数据的第‐个新状态，γ表示折扣因子， X表示小批量数据的大小。执行者网络根据评论家网络的反馈进行更新，具体如下：

$$ \nabla_{\theta_u} J \approx \frac{1}{X}\sum_j \nabla_{\theta_u} \mu_u(s^j_u)\nabla_{a_u} Q_u(S^j, a^j_1 ,…, a_u ,…, a^j_U)|_{a_u =\mu_u(s^j_u)} $$ (16)

在常见的强化学习训练过程中，存在一种用于平衡探索与利用的贪婪策略。类似地，在MADDPG中，引入正态分布的随机数作为探索噪声。MADDPG具有集中式训练和分布式执行的特点。在测试时，我们仅需执行者网络来完成资源分配，而不需要评论家网络。训练过程总结于算法II中。

示意图3

示意图4

示意图5

IV. 性能评估

在本节中，我们评估了所提出的算法在 MADDPG系统框架下增强现实应用中的性能。具体而言，系统的仿真参数如表II所示。在MADDPG中，采用具有两个隐藏层的神经网络进行训练，其激活函数为 ReLU函数。执行者网络的输出层使用双曲正切函数以限制输出的动作值。对比的算法如下：

本文提出的算法 : 本文基于深度强化学习对资源分配与任务卸载进行联合优化。
贪婪：贪婪算法根据[18]和[19]设计。
本地：在该算法中，不存在MEC服务器。增强现实应用的所有子任务均在用户终端上执行，并根据子任务的计算负载按比例分配计算资源。

图4和图5展示了所提出的算法在奖励和能耗方面的性能。从图4可以看出，本文提出的算法中每个用户的奖励表现更优。原因包含以下两部分：1）通信网络的状态不断变化；2）用户之间存在竞争关系，一个用户的变化会影响其他用户。贪婪算法无法很好地应对变化环境中的问题。本地算法意味着所有任务都在用户终端执行，其奖励必然最小。在训练过程中，MADDPG框架能够获取其他智能体的动作，并从全局视角做出合理决策。从图5可以看出，所提出的算法的能耗最低。根据公式(16)，在资源和延迟约束下，奖励与能耗之间的关系呈指数函数关系。因此，图4和图5是一致的一对一对应。

图6展示了所提出的算法的鲁棒性。与本地和贪婪算法相比，本文提出的算法的平均能耗波动小于贪婪算法。本地算法的性能波动大于所提出的算法，因为相同的资源分配比率无法很好地应对变化的环境。如果用户的网络链路较差，则该用户不需要大量资源，而本地算法无法处理这种情况。MADDPG能够很好地应对变化的环境中的这种情况，这一点再次通过图6得到了验证。

参数	值
U	15
B	50MHz
puUT	0.5W
pnBS	1W
δ²	‐100dB
ωl u	[15, 35]Kb
ηl u	[10, 100]每比特CPU周期
路径损耗模型	PL= 127+ 30log(dis)， dis是用户终端到eNodeB
ρ	1.87兆比特焦耳
F UT u	[1.8，2.2]吉赫兹
F MEC	[5, 15]GHz
κ	10⁻²⁵
Tu	[25, 30]ms
回合	140000
最小批次	100
缓冲区大小	10000
评论网络学习率	0.001
演员网络学习率	0.0001
优化器	Adam

V. 结论

本文提出了一种基于MADDPG的增强现实应用资源分配与任务卸载算法，旨在满足时延和资源约束条件下最小化每个用户的能耗。该算法能够应对连续动作空间和动态环境带来的挑战。每个用户被视为竞争通信和计算资源的智能体。MADDPG能够考虑其他用户的状态和动作，从而从全局视角做出更合理的决策。提供了关于收敛特性、奖励和能耗的仿真结果，结果表明所提出的算法在用户能耗方面具有更好的性能。