无人机辅助MEC中基于AoI的资源管理-优快云博客

无人机辅助的移动边缘计算系统中基于信息年龄的资源管理

摘要

本文研究了由基础设施提供商（InP）部署的无人机（UAV）辅助移动边缘计算（MEC）系统中信息年龄（AoI）感知的资源感知问题。服务提供商从InP租赁资源，以服务于具有稀疏计算请求的移动用户（MUs）。由于信道数量有限以及UAV的有限共享I/O资源，移动用户需根据对系统动态的观测，竞争性地调度本地和远程任务计算。每个移动用户的目标是自私地最大化其预期长期计算性能。我们将移动用户之间的非合作交互建模为一个随机博弈。为了逼近纳什均衡解，我们提出了一种新颖的在线深度强化学习（DRL）方案，使每个移动用户仅基于其本地推测进行决策。该DRL方案为每个移动用户采用两个独立的深度Q网络，分别用于逼近Q因子和决策后Q因子。数值实验表明，在线DRL方案在平衡信息年龄与能耗之间的权衡方面具有潜力。

一、引言

在移动边缘计算（MEC）中的策略性计算卸载不仅显著提升了移动用户（MU）的计算体验质量（QoE）和服务质量（QoS），还增强了移动设备运行各种资源密集型应用的能力。近年来，相关研究大量涌现[1,及其中的参考文献]。将计算任务卸载至边缘服务器涉及无线传输，而无线传输会受到环境动态的影响。特别是由于移动用户移动性导致的时变信道质量限制了计算性能[2]。由于部署成本低、灵活性高以及视距（LOS）连接等优势，无人机（UAVs）有望在推进新一代无线网络[3]中发挥重要作用。在MEC系统中利用无人机已显示出显著影响。在[4],中，Hu等人提出了一种交替算法，以最小化无人机辅助的MEC系统的加权总能耗。在[5],中，Li等人采用了丁克尔巴赫算法和逐次凸逼近技术来最大化无人机能效。

然而，大多数现有文献基于有限时间，无法表征长期性能。本文聚焦于一种基础设施提供商（InP）部署的无人机辅助蜂窝网络[6], 。除了传统的通信服务外，该三维系统还在边缘提供了计算能力，其中无人机作为空中飞行的补充计算服务器[3]。这种系统开辟了一种新的商业模式，第三方服务提供商（SP）可向InP租赁资源，以服务于具有计算请求的已订阅移动用户[2]。具体而言，SP的资源编排器（RO）管理着有限数量的信道，这些信道为移动用户提供对无人机辅助的MEC系统的接入。信道分配通过维克里‐克拉克‐格罗夫斯（VCG）定价机制[7]进行调控。因此，移动用户不仅能够在本地处理计算任务，还可以将任务卸载以进行远程执行。在无人机端，通过创建隔离的虚拟机（VMs）[8],来协同执行任务，而共享同一物理无人机平台会导致I/O干扰，从而引起每个虚拟机的计算速率下降。

在此背景下，每个移动用户（MU）在感知系统动态的情况下竞争调度本地和远程任务计算，旨在最大化自身的预期长期计算性能。在实际中，一个关键问题是来自计算结果的知识新鲜度[9]。衡量新鲜度的一个关键指标是信息年龄（AoI）[9],[10]。根据定义，AoI是自从最近一次被调度的计算结果被接收以来所经过的时间。我们将移动用户之间的非合作交互建模为一个多智能体马尔可夫决策过程（MDP）下的随机博弈。为了避免任何信息交换，我们提出每个移动用户基于本地推测独立行为，从而将问题转化为单智能体MDP。我们开发了一种新颖的在线深度强化学习（DRL）方案以应对巨大的本地状态空间。该深度强化学习方案为每个移动用户维护两个独立的深度Q网络（DQNs）[11]，分别用于近似Q因子和决策后Q因子。

II. 系统描述

我们假设一个基础设施提供商（InP）部署了一个三维蜂窝网络，其中地面无线接入网络（RAN）在固定高度为H飞行的无人机（UAV）协助下提供计算服务。一组B={1, 2, · · ·, B}基站（BSs）通过有线回传连接至边缘处资源丰富的服务器，而该无人机则集成一个并行计算服务器。一个服务提供者（SP）为一组K移动用户（MUs）提供间歇性计算请求的服务。我们使用有限的位置集合L来表示无线接入网（RAN）覆盖的地面服务区域以及从空中垂直映射到地面的无人机（UAV）区域。令Lb表示基站b ∈ B所覆盖的位置。对于任意两个基站b和b′ ∈ B{b}，我们有Lb ∩ Lb′= ∅。然后L= ∪b∈BLb。基站的地理拓扑用一个二元图⟨B, E⟩表示，其中E={eb,b′：b, b′ ∈ B, b ̸= b′}，每个eb,b′在基站b和b′相邻时等于1，否则为0。系统在离散的决策时段上运行，每个决策时段的持续时间为δ，并由j ∈N+索引。

我们假设无人机和移动用户以相同的速度按照马尔可夫移动模型[2]移动。令Lj(v)∈ L和Lj(m),k ∈ L分别表示在决策周期j内无人机的映射地面位置和每个移动用户k ∈ K的位置。假设移动用户的计算任务到达是独立的伯努利随机变量，具有共同参数λ ∈[0, 1]。每个移动用户k使用一个预处理缓冲区来临时存储一个计算任务。由于新到达的计算任务总是包含更新的信息，因此允许具有更新到达时间的新任务替换预处理缓冲区中的旧任务是合理的。

我们假设一个计算任务由D(max)个输入数据包组成，每个数据包包含µ个数据比特。我们用ϑ表示完成一个计算任务的每比特所需CPU周期数。一个计算任务可以在移动设备本地计算，也可以远程执行。具体地，令Xjk ∈ X={0, 1, 2, 3}表示每个时隙j移动用户k的计算卸载决策，其中Xjk= 1、Xjk= 2和Xjk= 3分别表示预处理缓冲区中的任务被安排由本地CPU、边缘服务器和无人机计算，而Xjk= 0表示该任务未被安排进行计算。

资源协调器（RO）管理一个包含C个信道的集合C，每个信道的带宽为η。为了上传已调度计算任务的输入数据包以进行远程执行，移动用户（MUs）通过VCG机制竞争有限的信道资源。在每个时隙j开始时，每个移动用户k ∈ K向资源协调器（RO）提交一个拍卖投标βjk =(νjk ,Njk) ，其中νjk 表示对Njk=(Nj(s),k , Nj(v),k)的真实估值，Nj(s),k和Nj(v),k分别表示移动用户向边缘服务器和无人机传输数据所需的信道数量。令ρ jk= (ρ jk,c : c ∈ C)表示在时隙j为移动用户k进行的信道分配，当移动用户k被分配到信道c ∈ C时，ρ jk,c 等于1，否则为0。我们考虑

$$
\left(\sum_{k \in K_j^{(s)},b} \rho_{jk,c}\right) \cdot \left(\sum_{k \in K_j^{(s)},b’} \rho_{jk,c}\right) = 0, \text{ if } e_{b,b’} = 1, \forall e_{b,b’} \in E, \forall c \in C; \quad (1)
$$
$$
\left(\sum_{k \in \cup_{b \in B} K_j^{(s)},b} \rho_{jk,c}\right) \cdot \left(\sum_{k \in K_j^{(v)}} \rho_{jk,c}\right) = 0, \forall c \in C; \quad (2)
$$
$$
\sum_{k \in K_j^{(s)},b} \rho_{jk,c} \leq 1, \forall b \in B, \forall c \in C; \quad (3)
$$
$$
\sum_{k \in K_j^{(v)}} \rho_{jk,c} \leq 1, \forall c \in C; \quad (4)
$$
$$
\sum_{c \in C} \rho_{jk,c} \leq 1, \forall k \in K, \quad (5)
$$

对于集中式信道分配，其中 $ K_j^{(s),b} = {k \mid k \in K, L_j^{(m),k} \in L_b, N_j^{(s),k} > 0} \forall b \in B $，而 $ K_j^{(v)} = {k \mid k \in K, N_j^{(v),k} > 0} $。我们将（:）表示为赢家确定，其中ϕjk在MU k获胜时等于1，否则为0。资源协调器根据计算

$$
\phi_j = \arg \max_\phi \sum_{k \in K} \phi_k \cdot \nu_{jk}
$$

s.t. 约束条件(1)、(2)、(3)、(4)和(5)；
$$
\sum_{k \in K_j^{(s),b}} \varphi_{jk} = \phi_k \cdot N_j^{(s),k}, \forall b \in B, \forall k \in K;
$$
$$
\sum_{k \in K_j^{(v)}} \varphi_{jk} = \phi_k \cdot N_j^{(v),k}, \forall k \in K, \quad (6)
$$

其中 $\phi = (\phi_k \in {0, 1}: k \in K)$ 和 $\varphi_{jk} = \sum_{c \in C} \rho_{jk,c}$。我们还将$\varphi_{jk}$重写为$\varphi_k(\beta^j)$，其中$\beta^j = (\beta^j_k, \beta^j_{-k})$，$-k$表示除MU k外的所有其他移动用户。移动用户k向服务提供者支付的费用计算如下

$$
\tau_{jk} = \max_{\phi_{-k}} \sum_{\kappa \in K \setminus {k}} \phi_\kappa \cdot \nu_{j\kappa} - \sum_{\kappa \in K \setminus {k}} \phi_j^\kappa \cdot \nu_{j\kappa}, \quad (7)
$$

这是由信道接入引起的。

III. 计算与年龄信息模型

设Tjk ∈ N为在时隙j开始时，移动用户k ∈ K的预处理缓冲区中等待的计算任务的到达时段索引。若预处理缓冲区为空，则令Tjk = 0。当时隙j移动用户k满足Xjk = 1时，所需完成任务的时段数计算为∆= ⌈(D(max)·µ·ϑ)/(δ · ϱ)⌉，其中⌈·⌉表示向上取整函数，ϱ为本地CPU频率。用Wj(m),k ∈{0, 1, · · ·,∆}表示在时隙j开始时移动用户k的本地CPU状态，即完成当前任务所需的剩余完成任务的时段数。特别地，Wj(m),k = 0表示本地CPU处于空闲状态，并且从时隙j起可用于新任务。本地CPU在时隙j期间的本地CPU能耗为

$$
F_{j(m),k} =
\begin{cases}
0, & \text{for } W_{j(m),k} = 0; \
\varsigma \cdot (D^{(max)} \cdot \mu \cdot \vartheta - (\Delta - 1) \cdot \delta \cdot \varrho) \cdot (\varrho)^2, & \text{for } W_{j(m),k} = 1; \
\varsigma \cdot \delta \cdot (\varrho)^3, & \text{for } W_{j(m),k} > 1,
\end{cases}
\quad (8)
$$

其中ς是有效开关电容[12]。

对于远程执行，移动用户必须在任务完成之前与地面无线接入网络或无人机保持关联。

设Ijk ∈ B ∪{B+ 1} 表示每个移动用户k ∈ K 在时隙j开始时的关联状态，即当移动用户k 与基站b 关联时为Ijk= b ∈ B，当移动用户k 与无人机关联时为Ijk= B+1。当Ij+1k ̸= Ijk，∀j时，触发一次切换[13]。假设一次切换所消耗的能量可忽略不计，但切换延迟为ξ。则移动用户k的传输时间减少为δ˜jk= δ−ξ·1{Ij+1k ̸=Ijk} ，其中1{i}是一个指示函数。令Djk ∈ D={0, 1, · · ·, D(max)}表示移动用户k 在每个时隙j开始时的本地发射机状态，即发射机处的输入数据包数量。令Rjk 表示在时隙j内需要上传的数据包数量，则发射机状态演化为Dj+1k= Djk−φjk· Rjk。在时隙j期间，移动用户k经历其与各基站b之间链路的信道增益Gjb,k= g(s)（Lj(m),k），以及其与无人机之间链路的信道增益Gj(v),k= g(v)（Lj(m),k, Lj(v)）。注意0 ≤ Rjk ≤ min{Djk, Rj(max),k}，其中Rj(max),k由时隙j期间的信道增益、传输时间以及移动用户处的最大发射功率P(max) 共同决定。

在一个时隙j开始时，如果某个移动用户k ∈ K的Xjk= 2，所有输入数据包都需要通过无线接入网在后续的时隙中进行卸载。当Lj(m),k ∈ Lb, b ∈ B时，传输φjk · Rjk 个数据包的能耗为

$$
F_{j(s),k} = \frac{\tilde{\delta} {jk} \cdot \eta \cdot \sigma^2}{G {b,k}^{j}} \cdot \left(2^{\frac{\varphi_{jk} \cdot (\mu \cdot R_{jk})}{\eta \cdot \tilde{\delta}_{jk}}} - 1\right), \quad (9)
$$

其中σ²是噪声功率谱密度。本文假设边缘服务器具有丰富的计算资源，因此忽略任务执行延迟。此外，由于计算结果通常远小于输入数据包[14]，我们将把计算结果返回给移动用户的时间视为可忽略不计。

当一个计算任务的所有输入数据包在某个时隙之前全部接收完毕时，无人机将从下一个时隙[8]开始通过为该移动用户创建虚拟机来执行任务。如果在移动用户k ∈ K处发生Xjk = 3，则传输φjk · Rjk 个输入数据包所消耗的能量变为

$$
F_{j(v),k} = \frac{\tilde{\delta} {jk} \cdot \eta \cdot \sigma^2}{G {(v),k}^{j}} \cdot \left(2^{\frac{\varphi_{jk} \cdot (\mu \cdot R_{jk})}{\eta \cdot \tilde{\delta}_{jk}}} - 1\right). \quad (10)
$$

设K˘j(v) ⊆ Kj(v)表示在时隙j内由无人机同时执行计算任务的移动用户集合。令χ₀为无人机处的计算服务速率（假设任务独立运行），则每个移动用户k ∈ K˘j(v)的降级速率建模为χj= χ₀ ·(1+ ε)¹⁻|K˘j(v)|，其中|·|表示集合的基数，ε ∈ R⁺为衰减因子。移动用户k的远程处理状态可更新为Wj+1(v),k =max{Wj(v),k − χj · δ, 0}，其中Wj(v),k量化了在时隙j开始时无人机处剩余的输入数据比特量。

为了描述每个移动用户k ∈ K 从计算中获得的知识新鲜度，我们将信息年龄定义为当前时间与最新任务到达时间之间的差值，其结果被接收。令Ajk表示每个时隙j中移动用户k的信息年龄。信息年龄的演化可分析如下。

1) 当在M处未接收到计算结果时Uk, Aj+1k= Ajk+ δ。

2) 当移动用户k仅接收到一个计算结果时，

$$
A_{j+1}^k =
\begin{cases}
(j - T_{j(m),k} - \Delta + 1) \cdot \delta + \frac{D^{(max)} \cdot \mu \cdot \vartheta}{\varrho}, & \text{for } W_{j(m),k} = 1, D_{jk} = 0 \text{ and } W_{j(v),k} = 0; \
(j - T_{j(s),k} + 1) \cdot \delta, & \text{for } W_{j(m),k} = 0, D_{jk} > 0 \text{ and } W_{j(v),k} = 0; \
(j - T_{j(v),k}) \cdot \delta + \frac{W_{j(v),k}}{\chi_j}, & \text{for } W_{j(m),k} = 0, D_{jk} = 0 \text{ and } W_{j(v),k} > 0,
\end{cases}
\quad (11)
$$

其中Tj(m),k、Tj(s),k和Tj(v),k分别为在本地CPU、边缘服务器和无人机上处理的任务的到达时隙索引。

3) 当两个计算结果到达移动用户k时，

$$
A_{j+1}^k =
\begin{cases}
(j - T_{j(s),k} + 1) \cdot \delta, & \text{for } D_{jk} > 0, W_{j(v),k} = 0 \text{ and } T_{j(s),k} > T_{j(m),k}; \
(j - T_{j(v),k}) \cdot \delta + \frac{W_{j(v),k}}{\chi_j}, & \text{for } D_{jk} = 0, W_{j(v),k} > 0 \text{ and } T_{j(v),k} > T_{j(m),k}; \
(j - T_{j(m),k} - \Delta + 1) \cdot \delta + \frac{D^{(max)} \cdot \mu \cdot \vartheta}{\varrho}, & \text{otherwise}.
\end{cases}
\quad (12)
$$

默认情况下，每个移动用户的信息年龄初始化为A1k= 0，且上限为A(max)。

IV. 随机博弈建模

在每个决策周期j中，每个移动用户k ∈ K的局部状态可以描述为Sjk = (Lj(v), Lj(m),k, 1{Tjk>0}, Ijk, Wj(m),k, Wj(v),k, Djk, Ajk) ∈ Sj = S^{|K|}。S(Sjk, Sj−k) 表征全局系统状态。令πk =(π(c),k , π(t),k, π(p),k)表示移动用户k的控制策略，其中π(c),k、π(t),k和π(p),k分别为信道拍卖、计算卸载和分组调度策略。所有移动用户的联合控制策略可表示为π=(πk ,π−k)。在时隙j观测到Sj后，移动用户k根据πk(Sj)=(π(c),k(Sj), π(t),k(Sjk), π(p),k(Sjk))=(βjk, Xjk, Rjk)进行决策。我们定义一个即时收益

$$
\ell_k(S_j,(\varphi_{jk}, X_{jk}, R_{jk})) = u_k(S_j,(\varphi_{jk}, X_{jk}, R_{jk})) - \tau_{jk}, \quad (13)
$$

其中uk(Sj,(φjk, Xjk, Rjk))=ϖk ·exp(−Ajk)+ωk ·exp(−Fjk)且φjk= φk(π(c)(Sj))满足π(c)=(π(c),k,π(c),−k)。在效用函数uk(Sj, (φjk, Xjk, Rjk))中，Fjk= Fj(m),k+ Fj(s),k+Fj(v),k是总本地能耗，而ϖk ∈ R+和ωk ∈ R+是权重常数。每个移动用户k ∈ K 旨在制定最优响应控制策略π∗k=(π∗(c),k, π∗(t),k, π∗(p),k)，以

$$
\pi^* k = \arg \max {\pi_k} V_k(S,\pi), \quad (14)
$$

对于任意全局系统状态S = (L(v), L(m),k, 1{Tk>0}, Ik, W(m),k, W(v),k, Dk, Ak)k= k ∈ K ∈ S^{|K|}(S():)，其中

$$
V_k(S,\pi) = (1 - \gamma) \cdot E_\pi \left[ \sum_{j=1}^\infty (\gamma)^{j-1} \cdot \ell_k(S_j,(\varphi_{jk}, X_{jk}, R_{jk})) \mid S_1 = S \right].
\quad (15)
$$

其中，γ ∈[0, 1]是折扣因子，Vk(S,π)也称为在π[15]下的状态值函数。由于信道数量有限、无人机处的共享I/O资源以及系统的随机特性，我们将竞争性移动用户在无限时间范围内的交互建模为一个非合作随机博弈。纳什均衡(NE)描述了移动用户在随机博弈中的理性行为。具体而言，纳什均衡是一组控制策略⟨π∗k: k ∈ K⟩，其中π∗是对π∗−k[16]的最佳响应。为简洁起见，定义Vk(S)= Vk(S,π∗k,π∗−k)为最优状态值函数。可以容易发现，移动用户k的Vk(S,π)不仅依赖于时间范围内全局系统状态的信息，还依赖于联合控制策略π。换句话说，所有移动用户的决策在随机博弈中是相互耦合的。

V. 基于本地推测的深度强化学习(DRL)

A. 本地推测

在随机博弈中，每个移动用户 k ∈ K都难以获取其他移动用户的私有信息。另一方面，移动用户在无人机处的信道拍卖和远程任务执行中的决策存在耦合关系。从移动用户 k的角度来看，在时隙 j下的支付τjk 和计算服务速率 χj是在Sj−k 下实现的。我们允许移动用户 k在下一个时隙 j+ 1对Sj+1进行推测，即 ̂Sj+1k =(Sj+1k , Oj+1k)，其中Oj+1k =(τjk , χj) ∈ Ok。现在我们将(15)转换为

$$
V_k(\hat{S} k,\pi) = (1 - \gamma) \cdot E \pi \left[ \sum_{j=1}^\infty (\gamma)^{j-1} \cdot \ell_k(S_j,(\varphi_{jk}, X_{jk}, R_{jk})) \mid \hat{S}_1^k = \hat{S}_k \right],
\quad (16)
$$

其中$\hat{S}_k = (S_k, O_k) \in \hat{S}_k = S \times O_k$，Ok表示S−k 的初始局部猜想，而 π下文指代基于猜想的联合控制策略。

每个MU k随后进行切换以最大化 $V_k(\hat{S}_k,\pi)$，∀Sk ∈ Sk，这本质上是一个单智能体MDP。为方便表述，我们令$V_k(\hat{S}_k) = V_k(\hat{S}_k,\pi^*)$，∀k ∈ K，其中π∗为最优响应所有移动用户的本地推测的控制策略配置文件以及Bellman最优性方程由(17)给出。

当所有移动用户根据本地推测遵循最优响应控制策略配置 π∗时，每个移动用户 k ∈ K在当前决策周期开始时向资源协调器宣布信道需求

$$
N_{(s),k} = z_k \cdot 1{\pi^ {(t),k}(S_k)=2}, \quad (18)
$$
$$
N {(v),k} = z_k \cdot 1{\pi^ _{(t),k}(S_k)=3}, \quad (19)
$$

以及真实估值被指定为

$$
\nu_k = u_k(S_j,(z_k, \pi^ _{(t),k}(S_k), \pi^ {(p),k}(S_k))) + \frac{\gamma}{1 - \gamma} \cdot
\sum {\hat{S}’ k \in \hat{S}_k}
P(\hat{S}’_k \mid \hat{S}_k,(z_k, \pi^ _{(t),k}(S_k), \pi^ {(p),k}(S_k))) \cdot V_k(\hat{S}’_k), \quad (20)
$$

其中 zk表示赢得一个信道的偏好，̂S′k是后续的局部状态。在缺乏局部系统动态统计和支付函数结构的情况下，提出最优出价仍然具有挑战性。

B. 提出的深度强化学习方案

为了使拍卖投标的计算可行，我们为移动用户引入了局部事后状态[17]。在每个当前时隙，移动用户 k ∈ K的局部事后状态被定义为$\tilde{S}_k = (L(v), L(m),k, 1{T_k>0}, I_k, W(m),k, W(v),k, \tilde{D}_k, A_k, O_k) \in \tilde{S}_k$，通过令$\tilde{D}_k = D_k - \varphi_k(\beta) \cdot R_k$，其中β=(βk, β−k)。对于每个移动用户 k，我们将(17)式的右侧定义为一个Q因子，即

$$
Q_k(\hat{S} k,(\varphi_k, X_k, R_k)) = (1 - \gamma) \cdot \ell_k(S,(\varphi_k, X_k, R_k)) +
\gamma \cdot \sum {\hat{S}’_k \in \hat{S}_k}
P(\hat{S}’_k \mid \hat{S}_k,(\varphi_k, X_k, R_k)) \cdot V_k(\hat{S}’_k), \quad (21)
$$

其中φk、Xk 和 Rk 分别对应于信道分配、计算卸载和在Sk下的分组调度决策̂。我们进一步定义了一个决策后Q因子

$$
\tilde{Q} k(\tilde{S}_k,(\varphi_k, X_k, R_k)) = \gamma \cdot \sum {\hat{S}’_k \in \hat{S}_k}
P(\hat{S}’_k \mid \tilde{S}_k,(\varphi_k, X_k, R_k)) \cdot V_k(\hat{S}’_k). \quad (22)
$$

将(22)代入(20)，我们得到

$$
\nu_k = u_k(S_j,(z_k, \pi^ _{(t),k}(S_k), \pi^ {(p),k}(S_k)))
+ \frac{1}{1 - \gamma} \cdot \tilde{Q}_k(\tilde{S}_k,(z_k, \pi^ _{(t),k}(S_k), \pi^ {(p),k}(S_k))). \quad (23)
$$

其中zk因此可以推导出

$$
z_k = \arg \max_{z \in {0,1}} Q_k(\hat{S} k,(z, \pi^ _{(t),k}(S_k), \pi^ {(p),k}(S_k))). \quad (24)
$$

可以很容易地观察到，每个MU k ∈ K所面对的Sk 极其巨大。采用表格形式表示Q因子和决策后Q因子值使得传统的Q学习规则变得不切实际。受深度神经网络[18]广泛应用成功的启发，我们提出采用两个分别使用深度Q网络（DQNs），即DQN‐I和DQN‐II，来重构移动用户MU的Q因子和决策后Q因子。具体而言，对于每个移动用户 k，我们通过∀(Sk,(φk, Xk, Rk)) ∈ Sk ×{0, 1}× X × D,对(21)中的Q因子进行建模。

$$
Q_k(\hat{S}_k,(\varphi_k, X_k, R_k)) \approx Q_k(\hat{S}_k,(\varphi_k, X_k, R_k); \theta_k), \quad (25)
$$

以及(22)中的决策后Q因子，∀(Sk,(φk, Xk, Rk)) ∈ Sk ×{0, 1}× X × D,

$$
\tilde{Q}_k(\tilde{S}_k,(\varphi_k, X_k, R_k)) \approx \tilde{Q}_k(\tilde{S}_k,(\varphi_k, X_k, R_k); \tilde{\theta}_k), \quad (26)
$$

其中θk 和$\tilde{\theta}_k$表示与DQN‐I和DQN‐II相关的参数向量。

在在线深度强化学习（DRL）过程中，每个移动用户k ∈ K都配备有一个有限的回放内存Mjk={yj−M+1 , · · ·, yjk}，用于记录至决策周期j为止最近的M次历史经验，其中经验yj−m+1k (1 ≤ m ≤ M)定义为

$$
y_{j-m+1}^k = (\hat{S} {j-m}, (\varphi {j-m}^k, X_{j-m}^k, R_{j-m}^k), \ell_k(S_{j-m},(\varphi_{j-m}^k, X_{j-m}^k, R_{j-m}^k)), \hat{S}_{j-m+1}). \quad (27)
$$

1) DQN‐I训练：移动用户k维护一个Qk(̂Sk,(φk, Xk, Rk); θjk)和一个目标Qk(̂Sk,(φk, Xk, Rk); θj,−k)，其中θjk和θj,−k分别为每个决策周期j及此前某一周的对应参数。为了进行经验回放[19]，移动用户k随机采样一个小型批次Yjk ⊆ Mjk 来训练DQN‐I，其目标是最小化由(28)给出的损失。

2) DQN‐II训练：在每个决策周期j，我们将$\tilde{\theta} {jk}$定义为与移动用户k的DQN‐II相关的参数。以DQN‐I输出的θjk作为输入，移动用户k更新$\tilde{\theta} {jk}$，以最小化在小批量Yjk上由(29)给出的损失。

$$
\text{LOSS} {\text{(DQN-I)},k}(\theta {jk}) =
E_{{(\hat{S} k,(\varphi_k,X_k,R_k),\ell_k(S,(\varphi_k,X_k,R_k)),\hat{S}’_k) \in Y {jk}}} \left[
\left((1 - \gamma) \cdot \ell_k(S,(\varphi_k, X_k, R_k)) +
\gamma \cdot Q_k(\hat{S}’ k, \arg \max {\varphi’ k,X’_k,R’_k} Q_k(\hat{S}’_k,(\varphi’_k, X’_k, R’_k); \theta {jk}); \theta_{j,-k}) -
Q_k(\hat{S} k,(\varphi_k, X_k, R_k); \theta {jk})\right)^2
\right] \quad (28)
$$

$$
\text{LOSS} {\text{(DQN-II)},k}(\tilde{\theta} {jk}) =
E_{{(\hat{S} k,(\varphi_k,X_k,R_k),\ell_k(S,(\varphi_k,X_k,R_k)),\hat{S}’_k) \in Y {jk}}} \left[
\left( \gamma \cdot \max_{\varphi’ k,X’_k,R’_k} Q_k(\hat{S}’_k,(\varphi’_k, X’_k, R’_k); \theta {jk}) -
\tilde{Q} k(\tilde{S}_k,(\varphi_k, X_k, R_k); \tilde{\theta} {jk}) \right)^2
\right] \quad (29)
$$

VI. 数值实验

为了评估所提出的在线DRL方案的性能，我们在TensorFlow[20]基础上进行数值实验。我们构建了一个覆盖0.4×0.4Km²平方区域的实验无线接入网（RAN），其中包含B= 4个基站（BSs）和|K|= 20个移动用户（MUs）。基站等间距布置，服务区域被划分为|L|= 1600个位置。无人机在海拔H= 100米的高度飞行。对于每个移动用户k ∈ K，Gjb,k 和Gj(v),k、∀b ∈ B和∀j分别遵循[2]中的信道模型和[21]中的视距模型。所有移动用户和无人机的状态转移概率矩阵独立且随机生成。我们为每个移动用户的DQN‐I和DQN‐II设计了两个隐藏层，每层包含32个神经元。选择ReLU作为激活函数[22]，Adam作为优化器[23]。其他参数值在表I中列出。我们还考虑了以下基线方案以进行性能比较。

1) 本地计算（基线1）——每个移动用户仅在本地移动设备上处理计算任务。
2) 服务器执行（基线2）——每个移动用户始终将计算任务卸载至边缘服务器进行执行。
3) 无人机执行（基线3）——移动用户的全部计算任务均在无人机上处理。
4) 贪婪处理（基线4）——尽可能将任务在本地计算或远程执行。

在基线方法2、3和4中，每个决策周期的估值通过传输最大数量输入数据包所带来的效用来计算。

第一个实验通过改变计算任务到达概率来展示每个移动用户每个决策周期的平均效用。我们假设有|C|= 16个信道可供移动用户使用。结果如图1所示，从中可以看出所提深度强化学习方案实现了最佳性能。随着计算任务到达概率的增加，每个移动用户为处理任务消耗更多能量以维持知识的新鲜度。在选定的权重下，当能耗增加时，信息年龄在效用函数值中的影响逐渐占主导地位，这验证了所有方案的平均效用性能趋势。接着，我们模拟了平均效用性能随信道数量变化的情况，其中选择λ= 0.5。可用信道越多，移动用户在信道拍卖中获胜的可能性就越大。因此，在基线2、3和4下，移动用户消耗更多能量以卸载更多的输入数据包进行远程执行；而在所提方案下，移动用户有更多机会以更低的能耗处理计算任务。使用基线1时，平均效用保持不变，因为移动用户不参与信道拍卖。最后但同样重要的是，两个实验均证实了所提方案的性能增益。

VII. 结论

本文旨在为三维无人机辅助的MEC系统中的移动用户设计最优控制策略。每个移动用户（MU）自私地最大化自身的预期长期计算性能。我们将移动用户（MUs）之间的非合作交互形式化为一个随机博弈。为了逼近纳什均衡（NE），我们提出了一种新颖的在线深度强化学习（DRL）方案，该方案为每个移动用户（MU）维护两个独立的深度Q网络（DQNs），用于分别近似Q因子和决策后Q因子。通过实施所提DRL方案，每个移动用户（MU）仅利用局部信息即可做出计算卸载、信道拍卖和输入数据包调度的决策。数值实验结果表明，与四种基线方法相比，所提方案实现了更优的平均效用性能，表明其在信息年龄与能耗之间取得了更好的权衡。