多无人机三维轨迹设计-优快云博客

基于深度强化学习的多无人机无线网络三维轨迹设计

摘要

本文研究了多无人机（UAV）的有效轨迹设计，以提升通信系统的容量。目标是通过利用无人机的移动性优势，在满足覆盖约束的前提下最大化实时下行链路容量。将无人机在覆盖约束下的三维（3D）动态移动问题建模为一个约束马尔可夫决策过程（CMDP）问题，并提出了一种约束深度Q网络（cDQN）算法来求解该建模问题。在所提出的cDQN模型中，每架无人机作为一个智能体，探索并学习其三维部署策略。该cDQN模型的目标是在尽可能保证所有地面终端（GTs）被覆盖的同时，获得最大容量。为了满足覆盖约束，采用原始‐对偶方法交替训练原始变量和对偶变量（拉格朗日乘子）。此外，为了减小cDQN算法的动作空间，利用先验信息通过动作过滤器消除无效动作。实验结果表明，cDQN算法在经过一定训练步数后能够收敛。此外，无人机能够根据所提出的cDQN算法得出的三维部署策略，在覆盖约束下自适应地跟踪地面终端的移动。

索引词 —容量，约束马尔可夫决策过程（CMDP），深度强化学习（DRL），轨迹设计，无人机（UAVs）。

一、引言

近几十年来，无人机（UAV）因其机动性[9],[10]和灵活性[13]，以及高概率的视距（LoS）传播特性[11],[12]而受到广泛的研究关注。此外，[14]的作者设计了一种空对地（AtG）异构网络架构，以提高未服务区域覆盖。无人机的潜力并开发了其诸多优势。在[15]中，作者提出了一种频谱区块链框架以确保无人机辅助通信的安全性。因此，受上述无人机特性的启发，无人机已被认为是缓解当前一代通信网络挑战的有前景的解决方案。特别是，无人机可作为移动基站，在应急通信场景中替代地面基础设施[16],[17]，并通过补充过载蜂窝网络，为地面终端（GTs）提供连续且无处不在的无线服务[18],[19]。

由于无人机的优势，许多研究工作已经探讨了无人机辅助无线通信系统。无人机辅助无线系统中的主要问题包括静态无人机的部署和移动无人机的轨迹设计。关于静态无人机的部署，单无人机和多无人机场景均已得到研究[20]–[23]。然而，现有研究工作忽略了无人机的移动性。至于移动无人机的轨迹设计，无人机的移动能够为无线通信系统提供额外的自由度（DoF），通过设计无人机的轨迹可实现性能提升[24]–[29]。然而，据我们所知，现有研究工作均将地面终端视为静止状态。此外，随着机器学习（ML）产业的快速发展，许多研究工作[30]–[34]已通过调用机器学习算法来研究无人机使能无线网络中的问题。但大多数现有研究工作也未考虑存在移动地面终端的无线通信环境。特别地，干扰、衰落和路径损耗等因素/参数被用于表征无线通信环境。地面终端的移动会导致上述无线通信环境因素发生实时复杂变化，这给无人机保障系统实时性能带来了挑战。

现有研究工作在未考虑地面终端（GTs）移动性的情况下，研究了无人机的二维（2D）和三维（3D）部署与轨迹设计。当考虑到地面目标的动态运动复杂性时，传统方法（如凸优化、匹配理论和博弈论）在设计无人机三维轨迹方面面临挑战。幸运的是，强化学习（RL）能够使智能体通过学习来提升其处理性能。更具体地说，RL能够及时与环境交互以获取地面终端的信息，并学习一种轨迹设计策略，从而为地面终端提供高质量的服务。由于RL具有基于环境进行决策的特点，因此被选为考虑移动地面终端时设计无人机轨迹的方法。

据我们所知，大多数现有研究工作未考虑多无人机在地面终端移动情况下的三维轨迹设计。此外，在多数现有研究中，采用强化学习方法求解马尔可夫决策过程（MDP）问题时未引入任何约束条件。然而，在无人机使能无线通信系统的实际应用中，约束条件对于保障高质量服务至关重要。因此，需要采用约束强化学习（cRL）方法。

本文研究了如何利用多无人机的三维移动特性来跟踪地面终端的移动。我们提出了一种约束深度Q网络（cDQN）算法，旨在最大化总下行链路容量的同时，尽可能保证所有地面终端都被服务。为了满足覆盖约束，我们采用原始‐对偶方法来满足该约束。此外，与[35][36]相比，本文中无人机的轨迹设计策略不具有固定的目的地。因此，我们的贡献如下：
- 我们设计了考虑地面终端移动性的多无人机三维动态移动。利用深度强化学习（DRL）算法来学习无人机的移动策略。更具体地说，在所提出的DRL模型中，每架无人机作为一个独立的智能体，探索并学习移动决策，以提升系统性能。
- 我们提出了一种约束深度Q网络算法，通过在所提出的DRL模型中采用原始‐对偶方法来满足覆盖约束。此外，我们利用所提出的cDQN算法，通过设计状态、动作、奖励和成本，来适应地面终端的动态变化。

实验结果表明，无人机高度上限会影响下行链路容量，当高度上限超过某一数值时，可获得最大下行链路容量。此外，实验结果还揭示了三维探索方案优于二维探索方案。

本文的其余部分组织如下。第二节介绍了相关工作。第三节展示了系统模型与问题建模，系统模型包括空对地通信模型、信道模型、终端移动模型和无人机通信模型。第四节提出了基于cDQN算法得出的多无人机高效移动方法。第五节评估了实验结果。最后，第六节对全文进行了总结。本文的符号列表见表I。

II. 相关工作

1) 静态无人机部署

关于静态无人机部署，单无人机和多无人机场景都已被研究。在[20]中，作者旨在通过使用解析方法优化单个无人机的高度来最大化地面终端的无线覆盖范围。[21]的作者也在其系统中考虑了单个无人机，借助数学方法获得了无人机的最佳三维部署，以最大化系统的收益。在[22]中，作者推导了考虑天线增益和无人机高度的覆盖概率，并采用圆盘填充方法部署多个无人机，以最大化目标区域的覆盖范围。[23]的作者将多无人机部署问题解耦为水平和垂直两个维度，以最大化被覆盖的地面终端数量。然而，在上述研究工作中，忽略了无人机的移动性。

2) 无人机轨迹设计

无人机的移动能够为无线通信系统提供额外的自由度，通过设计无人机的轨迹可提升系统性能。文献[25]设计了单个无人机在静态地面终端条件下的轨迹，以增强四种不同无线网络导电性的连通性。在[26]中，针对单个无人机设计其轨迹，在最大化单个地面终端吞吐量的同时最小化无人机的能耗。在[27]中，作者设计了无人机的移动方式，以最小化任务完成时间，并确保所有地面终端均能恢复接收到的数据。文献[28]研究了单个无人机辅助的设备到设备（D2D）通信网络，通过对覆盖特定区域所需时间与覆盖范围之间的权衡，对无人机的静态部署与轨迹设计进行了研究。在[29]中，作者考虑了多无人机辅助通信系统，通过设计无人机的轨迹来最大化地面终端的最小吞吐量。然而，在上述研究中，地面终端均被视为静止状态。

3) 机器学习在无人机轨迹设计中的应用

随着机器学习行业的快速发展，许多研究工作通过引入机器学习算法来研究无人机使能无线网络中的问题。在[30]中，作者采用了一种去中心化强化学习方法，以最大化多无人机辅助无线网络的吞吐量，其中地面终端被视为静态的。[31]的作者提出了一种新颖的在线深度强化学习算法，以在大规模环境中完成导航任务，仿真结果表明，借助所提出的深度强化学习算法，无人机能够在复杂环境中自主执行导航。然而，目前大多数研究工作未考虑存在移动地面终端的无线通信环境。由于漫游的地面终端会引起无线通信环境的实时复杂变化，因此无人机保障系统实时性能面临挑战。

III. 系统模型与问题表述

本文考虑了在 $D \times D$ 方形区域内，使用 $N$ 架无人机作为空中基站，为一组漫游的地面终端提供服务的场景。所有无人机都能够调整其实时三维位置以跟踪移动的地面终端，旨在向地面终端提供高质量无线服务，同时力求保证所有地面终端都被覆盖。

A. 空对地通信模型

与传统的地面通信传播相比，空对地传播主要受无人机仰角和高度的影响[37]。本文采用如[20],[38],[39]和[40]中的空对地通信模型。该空对地模型同时考虑了无人机与地面终端之间的视距链路和非视距（NLoS）链路。更具体地，视距链路的路径损耗和非视距（NLoS）链路的路径损耗（单位为dB）分别表示为

$$
PL_{LoS} = 20\log\left(\frac{4\pi f_c}{c}\right) + 20\log(d_{nm}) + \eta_{LoS}, \quad (1)
$$

$$
PL_{NLoS} = 20\log\left(\frac{4\pi f_c}{c}\right) + 20\log(d_{nm}) + \eta_{NLoS}, \quad (2)
$$

其中，$d_{nm}$ 是无人机 $n$ 到地面终端 $m$ 的欧几里得距离，$f_c$ 是载波频率，$c$ 是光速。此外，$\eta_{LoS}$ 和 $\eta_{NLoS}$ 分别是视距链路和非视距链路的平均附加损耗。进一步地，视距链路出现概率由下式给出

$$
P_{LoS} = \frac{1}{1 + a \exp(-b( \frac{180}{\pi} \tan^{-1}( \frac{h_n}{l_{nm}} ) - a))}, \quad (3)
$$

其中 $a$ 和 $b$ 是依赖于环境（农村、城市等）的常数，无人机 $n$ 的高度为 $h_n$，$l_{nm}$ 表示无人机 $n$ 到地面终端 $m$ 的水平距离。因此，非视距链路概率为 $1 - P_{LoS}$。于是，视距链路和非视距链路的平均路径损耗可表示为

$$
PL = P_{LoS} \times PL_{LoS} + P_{NLoS} \times PL_{NLoS}. \quad (4)
$$

B. 信道模型

我们考虑一个无人机辅助的下行链路无线网络，该网络包含若干架无人机（1、2、…、$n$、…、$N$）和若干地面终端（1、2、…、$M$、…、$M$）。无人机和地面终端均配备单天线。所有无人机共享相同的带宽，该带宽被划分为 $K$ ($1,2,…,k,…,K$) 个资源块（RB）。每个地面终端只能连接一个无人机并占用一个资源块。我们通过调用与[41]中所示相同的方法为无人机分配功率，并为所有资源块分配相同功率。记 $U_{nmk}$ 为资源块指示符，其中当地面终端 $m$ 占用无人机 $n$ 的第 $k$ 个资源块时，$U_{nmk}=1$；否则 $U_{nmk}=0$。因此，从无人机 $n$ 到地面终端 $m$ 在资源块 $k$ 上的下行链路传输的信干噪比(SINR)为

$$
\Upsilon_{mnk} = \frac{P_{nm} \cdot PL_{nm} \cdot U_{nmk}}{I_{nmk} + \sigma^2}, \quad (5)
$$

其中 $P_{nm}$ 和 $PL_{nm}$ 分别表示无人机 $n$ 到地面终端 $m$ 的发射功率和路径损耗。$\sigma^2 = \frac{W}{K}N_0$ 而 $W$ 表示带宽，$N_0$ 表示噪声功率谱密度。$I_{nmk} = \sum_{j \in N, j \neq n} \sum_{i \in M, i \neq m} P_{ni} \cdot U_{ijk} \cdot PL_{ji}$ 表示除无人机 $m$ 外所有无人机对地面终端 $n$ 造成的干扰。本文仅考虑下行链路容量，因此不考虑无人机之间的干扰，只考虑无人机与地面终端之间的干扰。无人机 $n$ 与地面终端 $m$ 在资源块 $k$ 上的容量可表示为

$$
C_{mnk} = \frac{W}{K} \log_2(1+\Upsilon_{mnk}). \quad (6)
$$

因此，总下行链路容量的计算公式为

$$
C_{\text{capacity}} = \sum_{n \in N} \sum_{k \in K} \sum_{m \in M} C_{mnk}. \quad (7)
$$

此外，$O_{mnk}$ 被定义为覆盖范围指示符，当无人机 $n$ 到地面终端 $m$ 在资源块 $k$ 上的传输信干噪比超过阈值 $\bar{\kappa}$ 时，$O_{mnk} = 1$；否则 $O_{mnk} = 0$。因此，总覆盖范围表示为

$$
C_{\text{coverage}} = \sum_{n \in N} \sum_{k \in K} \sum_{m \in M} O_{mnk}. \quad (8)
$$

C. 终端移动模型与无人机通信模型

本文中，地面终端被视为在给定区域内持续随机漫游。特别地，$(x_m^t, y_m^t)$ 表示地面终端 $m$ 的二维位置，$x_m^t$ 和 $y_m^t$ 分别表示地面终端 $m$ 的 $X$ 坐标和 $Y$ 坐标。无人机的轨迹设计策略及系统性能受地面终端移动性信息的影响。因此，无人机必须调整其三维位置以适应地面终端的移动。

无人机 $n$ 的三维位置由 $(x_t^n, y_t^n, h_t^n)$ 给出，其中 $x_t^n$ 和 $y_t^n$ 分别表示无人机 $n$ 的二维 $X$ 坐标和二维 $Y$ 坐标，而 $h_t^n$ 表示无人机 $n$ 的高度。无人机的高度需满足 $h_t^n \in [h_{\min}, h_{\max}]$，其中 $h_{\min}$ 根据安全考虑表示无人机飞行高度下限，$h_{\max}$ 表示上限。在飞行期间，无人机周期性地调整其三维位置，以跟踪移动的地面终端并为其提供高质量服务。

备注1 ：尽管三维位置探索方案相较于二维位置探索方案增加了大尺度衰落的影响，但三维位置探索方案能够增大视距链路的概率以及探索空间的自由度，从而为地面终端提供高质量服务。因此，三维位置探索方案能够获得优于二维位置探索方案的性能。

通常，有三种方法可以保证无人机[9]之间的通信：
- 无人机之间的主控制与非载荷通信（CNPC）。
- 地面控制站（GCS）与无人机之间的主控制与非载荷通信。
- 卫星与无人机之间的次控制与非载荷通信。

与次控制与非载荷通信相比，主控制与非载荷通信具有更高的传输速率。此外，在本文中，仅需将无人机的位置信息共享给所有无人机。因此，选择无人机之间的主控制与非载荷通信作为无人机间的通信模型。所有无人机都能够通过无人机之间的主控制与非载荷通信同步其位置信息。

D. 问题建模

本文考虑通过调整无人机的实时位置以最大化总下行链路容量，同时确保所有地面终端均得到服务的策略。因此，我们将问题建模为

$$
\max_{p_1, p_2, …, p_N} \sum_{n \in N} \sum_{k \in K} \sum_{m \in M} C_{mnk} \quad (9a)
$$

$$
\text{s.t. } C1: \sum_{n \in N} \sum_{k \in K} U_{mnk} = 1, \quad (9b)
$$

$$
C2: \sum_{k \in K} \sum_{m \in M} U_{mnk} \leq K, \quad (9c)
$$

$$
C3: \Upsilon_{mnk} \geq \bar{\kappa}, \forall n \in N, \forall m \in M, \forall k \in K, \quad (9d)
$$

$$
C4: C_{\text{coverage}}(t) = M, \quad (9e)
$$

$$
C5: h_{\min} \leq h_n^t \leq h_{\max}, \forall n \in N, \quad (9f)
$$

其中 $p_n$ 表示无人机 $n$ 的三维坐标向量 $(x_t^n, y_t^n, h_t^n)$，$n \in 1, 2, 3, …, N$。(9b)表示一个地面终端只能占用一个资源块，(9c)说明一架无人机最多可服务 $K$ 个地面终端。(9d)规定了在资源块 $k$ 上，无人机 $n$ 与地面终端 $m$ 之间通信的信干噪比需超过阈值 $\bar{\kappa}$。(9e)意味着所有地面终端均可被服务。(9f)为无人机的高度约束，其中 $h_{\min}$ 表示根据安全考虑设定的无人机飞行高度下限，$h_{\max}$ 为上限，对应状态‐动作空间大小。此外，在仿真部分，我们考虑不同的 $h_{\max}$ 值以表征高度对系统性能的影响。

在给定资源分配和功率分配策略的情况下，实时容量和覆盖范围取决于无人机的实时位置。因此，建模问题简化为无人机的轨迹设计问题。建模问题（9）可以简化为

$$
\max_{p_1, p_2, …, p_N} \sum_{n \in N} \sum_{k \in K} \sum_{m \in M} C_{mnk} \quad (10a)
$$

$$
\text{s.t. } C_{\text{coverage}}(t) = M. \quad (10b)
$$

可以观察到，公式(10a)是一个马尔可夫决策过程问题。带有约束(10b)的建模问题是一个受限马尔可夫决策过程问题。因此，该问题被转换为

$$
\min_{\lambda \geq 0} \max_{\pi} C_{\text{capacity}}(t) - \lambda(M - C_{\text{coverage}}(t)), \quad (11)
$$

其中 $\pi$ 表示移动策略，$\lambda$ 表示拉格朗日乘子。无人机移动问题是一个CMDP问题，表示为六元组〈N, S, A, R, C, P〉,，其中N表示无人机（智能体）数量。详细定义如下：
- 智能体 ：所有无人机均充当智能体，每架无人机作为一个独立的智能体。此外，无人机在水平和垂直方向的速度分别保持恒定，为 $v_h$ 和 $v_v$。
- 状态：我们将状态定义为 $s = (g_t, \text{ID} {\text{UAV}}) \in S$，其中 $g_t$ 表示在时隙 $t$ 所有智能体的位置信息，$\text{ID} {\text{UAV}}$ 表示用于区分当前执行动作的是哪架无人机的ID。具体而言，我们使用独热编码来标识$\text{ID}_{\text{UAV}}$，例如001、010和100分别表示第一、第二和第三架无人机。此外，任意智能体 $n$ ($n \in (1, 2, 3, …, N)$) 的三维位置表示为 $(x_t^n, y_t^n, h_t^n)$，其中 $(x_t^n, y_t^n)$ 为水平位置，$h_t^n$ 为高度。
- 动作：所有智能体具有相同的动作空间 $A_n$, $n=1, 2, 3, …, N$，表示为{前进、后退、右移、左移、上升、下降、悬停}，其中前进、后退、右移、左移、上升和下降分别表示智能体向前、向后、向右、向左、向上和向下移动。悬停表示智能体在当前位置悬停。此外，$a_t^n$ 是单个智能体$n$在时隙 $t$ 的动作，所有智能体具有独立的动作。

示意图0

奖励：每个智能体在执行动作时可获得自身的即时奖励$r_t^n$，当采取动作 $a_t^n$ 时。即时奖励定义为下一时刻的下行链路容量的平均值。例如，在时隙 $t$，智能体 $n$ 执行动作 $a_t^n$ 并移动到新的位置。随后，智能体 $n$ 获得即时奖励$C_{t+1}/N$，其中 $C_{t+1}$ 是时隙 $t+1$ 的下行链路容量，$N$ 是智能体数量。
成本：与传统MDP问题相比，我们需要在CMDP问题中考虑智能体的成本（惩罚）。智能体 $n$ 的即时成本定义为$c_t^n = \text{Num} t^n$，其中 $\text{Num}_t^n$ 表示智能体 $n$ 在时隙 $t$ 服务的地面终端数量。在受限马尔可夫决策过程问题中，每个智能体的目标是最大化奖励与成本之间累积差值 $E[\sum {k=0}^{\infty} \gamma^k(r_t^n+k - \lambda(MN - c_t^n+k))]$。如果 $M N - c_t^n > 0$ 表示智能体 $n$ 服务的地面终端数量低于平均值$MN$，则给予负成本；否则，给予正成本。
转移函数 ：它描述了通过执行动作 $a_t$ 从状态 $s_t$ 转移到状态 $s_{t+1}$ 的概率。

在给定区域中考虑三个无人机的示例情况如图1所示。在时隙1，无人机1执行动作“向左”并向左移动。随后，在时隙2，无人机1获得即时奖励 $r_{11} = C_2 / 3$ 和即时成本 $c_{11} = \text{Num}_2^1$，其中 $C_2$ 是时隙2的总容量，而$\text{Num}_2^1$ 是时隙2无人机1服务的地面终端数量。

基于深度强化学习的多无人机无线网络三维轨迹设计

IV. 多无人机轨迹设计的提出算法

A. 深度强化学习算法背景

强化学习（RL）的概念源于对行为心理学的研究。强化学习模型中的智能体能够通过探索不同动作来寻找最大奖励。换句话说，强化学习智能体能够从自身经验中学习，而无需依赖外部智能“教师”。因此，强化学习被认为是一种基于奖励的机器学习算法，可通过在与环境的交互过程中采用学习策略，以解决最大化长期累积奖励的问题。通常，强化学习模型被定义为一个四元组〈S, A, R, P〉。
- S ：智能体的状态空间。$s$ 是一个广义状态（$s \in S$）；
- A ：智能体的动作空间。$a$ 是一个广义动作（$a \in A$）；
- R ：来自环境的奖励空间。特别地，$r_{s,a}$ 是在状态$s$下采取动作$a$所获得的奖励；
- P ：表示在特定动作下从当前状态转移到下一状态的概率。

通常，强化学习智能体根据策略选择动作，该策略由一系列动作组成。执行动作后，从当前状态转移到下一状态会产生即时奖励。即时奖励直接决定了长期累积奖励。状态‐动作值（Q值）$Q(s, a)$用于表示基于状态$s$和动作$a$的长期累积奖励。

$$
Q(s, a) = E\left[\sum_{k=0}^{\infty} \gamma^k r_{t+k} \mid s_t = s, a_t = a\right], \quad (12)
$$

其中 $\gamma$ 是折扣因子，用于控制强化学习智能体对未来奖励的重视程度。强化学习模型的目标是学习最优策略，并最大化长期累积奖励。换句话说，强化学习智能体旨在找到最优的状态‐动作值 $Q^*(s, a)$

$$
Q^ (s, a) = E_{s’}\left[r_t + \gamma \max_{a’} Q^ (s’, a’) \mid s, a\right], \quad (13)
$$

其中$r_t$表示在时隙$t$的即时奖励。$Q^*(s, a)$是一个贝尔曼最优问题，可以使用动态规划来求解该问题。

然而，当强化学习中存在大量状态时，Q表会变得非常庞大，从而导致计算复杂度无法管理。幸运的是，可以调用DRL模型来解决这一问题。在DRL模型中，强化学习与深度学习的概念相结合，以应对具有大量状态的情况。深度学习能够利用神经网络来估计某些值，特别是可以根据不同的输入特征拟合不同的函数。因此，引入深度学习来估计状态‐动作值，取代强化学习模型中的Q表。

B. 多无人机轨迹设计的DQN算法

在独立DQN模型中，每架无人机是一个独立的智能体，从状态空间S获取状态，并从动作空间A选择动作。特别地，在选择动作时采用$\varepsilon-$贪婪方法[42]来平衡利用与探索。该$\varepsilon-$贪婪方法表示为

$$
a =
\begin{cases}
\arg\max Q, & \beta > \varepsilon \
\text{random action}, & \beta < \varepsilon,
\end{cases}
\quad (14)
$$

其中 $\beta \in [0, 1]$ 和 $\varepsilon$ 表示探索概率。具体而言，无人机以 $1 - \varepsilon$ 的概率根据最优Q值选择最优动作，以 $\varepsilon$ 的概率选择随机动作。较大的 $\varepsilon$ 值会导致独立DQN模型的方差和波动增大；然而，较小的$\varepsilon$值会使独立DQN算法陷入次优值。因此，选择合适的 $\varepsilon$ 值至关重要。

执行动作后，智能体获得即时奖励$r_t^n$。在深度Q网络模型中，智能体旨在找到一种动作策略$\pi$以最大化累积奖励

$$
E\left[\sum_{k=0}^{\infty} \gamma^k r_{t+n+k} \mid \pi\right]. \quad (15)
$$

特别地，采用Q网络来生成Q值，该Q值等于累积奖励。Q值表示为

$$
Q(s_t^n, a_t^n) = (1 - \Gamma)Q(s_t^n, a_t^n) + \Gamma\left(r_t^n + \gamma \max_{a_{t+1}^n} Q(s_{t+1}^n, a_{t+1}^n)\right), \quad (16)
$$

其中 $\Gamma$ 表示学习率。此外，通过最小化损失来更新Q网络中的参数

$$
J(\theta’) = E_{s_t^n,a_t^n,s_{t+1}^n,r_{t+1}^n}\left[Q(s_t^n, a_t^n; \theta’) - \left(r_t^n + \gamma \max_{a_{t+1}^n} Q(s_{t+1}^n, a_{t+1}^n; \theta)\right)\right], \quad (17)
$$

其中 $\theta’$ 和 $\theta$ 分别为评估Q网络的参数和目标Q网络的参数。采用Adam算法来指导评估Q网络的更新过程。具体而言，通过以下公式优化损失函数（17）来更新 $\theta’$，

$$
\theta’ \leftarrow \theta’ - \eta \nabla_{\theta’} J(\theta’). \quad (18)
$$

在实际应用中，与其他基准算法相比，Adam算法能够以有效的学习效果和更快的收敛速度实现更优的性能[43]。此外，目标Q网络的参数通过

$$
\theta = \alpha\theta + (1 - \alpha)\theta’, \quad (19)
$$

其中 $\alpha$ 表示更新速率，用于确定评估Q网络中新生成的参数对目标Q网络参数的影响程度。特别地，目标Q网络的参数会周期性更新，更新周期为300次迭代。使用目标Q网络的目的是防止过高估计。

除了目标Q网络和评估Q网络外，深度Q网络架构中还调用了经验回放记忆。经验回放记忆用于存储经验样本 $(s, a, r, s’)$（其中$s’$表示下一时刻的状态）。在每一次训练步骤中，从经验回放记忆中随机选取一个小批量的经验样本，用于训练并更新评估Q网络的参数。

备注2 : 小批量样本的大小决定了深度强化学习算法的样本利用率。因为不适当的小批量大小无法充分利用经验样本。因此，必须仔细选择合适的小批量大小，以保证深度强化学习算法的样本利用率和收敛性。

此外，动作优势函数能够在相同状态下保持动作值的相对顺序不变，从而减少冗余的自由度。为了增强深度Q网络的稳定性，动作优势函数用于替代Q函数，可以表示为

$$
Q(s_t^n, a_t^n; \theta’) = V(s_t^n; \theta’) + A(s_t^n, a_t^n; \theta’) - \frac{1}{|A|} \sum_{a_t^n \in A} A(s_t^n, a_t^n; \theta’), \quad (20)
$$

其中 $V(s_t^n; \theta’)$ 表示状态值，$A(s_t^n, a_t^n; \theta’)$ 表示动作优势值，而 $|A|$ 表示动作空间的大小。

最后，评估Q网络的输出是动作的值，用于动作选择。当算法收敛时，评估Q网络输出最优动作，该动作能够最大化累积奖励（Q值）。

C. cDQN算法用于多无人机轨迹设计

在所提出的DQN算法中，无人机迭代地探索并学习其新位置。每架无人机通过试验和错误来最大化自身的累积奖励。然而，每个时隙都必须满足覆盖约束。因此，每个智能体旨在找到一种动作策略 $\pi$，以最大化奖励与成本之间的累积差值。

$$
E\left[\sum_{k=0}^{\infty} \gamma^k (r_{t+n+k} - \lambda(M/N - c_{t+n+k})) \mid \pi\right], \quad (21)
$$

而不是累积奖励。因此，状态‐动作值可以表示为

$$
Q(s_t^n, a_t^n) = (1 - \Gamma)Q(s_t^n, a_t^n) + \Gamma\left(r_t^n + \gamma \max_{a_{t+1}^n} Q(s_{t+1}^n, a_{t+1}^n) - \lambda(M/N - c_{t+1}^n)\right). \quad (22)
$$

我们通过最小化损失来更新Q网络的参数

$$
E_{s_t^n,a_t^n,s_{t+1}^n,r_{t+1}^n}\left[Q(s_t^n, a_t^n; \theta’) - \left(r_{t+1}^n + \gamma \max_{a_{t+1}^n} Q(s_{t+1}^n, a_{t+1}^n; \theta) - \lambda(M/N - c_{t+1}^n)\right)\right], \quad (23)
$$

其中 $\lambda$ 表示通过批量梯度下降（BGD）更新的拉格朗日乘子[44],

$$
\lambda = \lambda + \frac{1}{|B|} \sum_{k=1}^{|B|} \left(\frac{M}{N} - c_k^n\right), \quad (24)
$$

其中 $|B|$ 表示从经验回放记忆中采样的批量样本的大小。经验回放记忆用于存储样本$(s_t^n, a_t^n, r_t^n, c_t^n, s_{t+1}^n)$。

此外，为了求解该建模问题，无人机的二维位置必须位于指定范围内，且无人机的高度也必须满足范围 $[h_{\min}, h_{\max}]$。因此，当智能体位于边界位置时，会存在一些无效动作（超出指定范围）。为了提高所提基于DQN的算法的效率，我们通过调用先验过滤信息 $F_t^n$ 来过滤无效动作，其中 $F_t^n$ 是智能体 $n$ 在时隙 $t$ 的过滤信息。$F_t^n$ 是一个二进制向量，用于表示七个动作的合理性，$F_t^n$ 表达式如下：

$$
F_t^n[k] =
\begin{cases}
1, & \text{if the direction is valid}, \
0, & \text{otherwise},
\end{cases}
\quad (25)
$$

其中 $k \in {0, 1, 2, 3, 4, 5, 6}$。$F_t^n$ 的最后一个元素是1，因为最后一个元素表示智能体在当前位置悬停（始终是一个有效动作）。

D. 所提算法的分析

1) 所提算法的收敛性

关于所提算法的收敛性分析，全局Q值$Q(s, a)$是所有局部Q值 $Q(s_n, a_n)$的线性组合。根据[45]和[46]，当 $r_n + \lambda(M/N - c_n)$ 有界时，局部Q值能够收敛到最优Q值。此外，当局部Q值收敛时，全局Q值也随之收敛。

备注3 ：cDQN的学习率影响算法的收敛速度。不恰当的学习率可能导致收敛速度降低或模型无法收敛。因此，在设计算法时选择合适的学习率至关重要。

2) 所提算法的复杂度

关于所提算法的复杂度分析，探索和学习的复杂度为 $O(|S|^2|A|)$，其中 $|S|$ 表示状态数量，$|A|$ 表示动作数量。显然，所提出的cDQN算法的复杂度主要由状态空间决定。此外，动作过滤器能够通过消除无效动作来减少动作空间 $|A|$。更具体地，动作过滤器能够将cDQN的复杂度降低 $\frac{4N_v + 2N_h}{7 \times N_h \times N_v} \times 100\%$，其中 $N_h$ 和 $N_v$ 分别表示无人机水平X轴/Y轴坐标数量和无人机垂直Z轴坐标数量。具体而言，无人机飞行空间被划分为 $N_h \times N_h \times N_v$ 个子空间。为方便起见，无人机飞行空间的结构如图4所示。无人机动作总数为 $7 \times N_h \times N_h \times N_v$，而无效无人机动作数量（导致无人机飞出指定范围的动作）为 $4 \times N_h \times N_v + 2 \times N_h \times N_h$。因此，动作过滤器降低的复杂度为 $\frac{4 \times N_h \times N_v + 2 \times N_h \times N_h}{7 \times N_h \times N_h \times N_v} \times 100\% = \frac{4N_v + 2N_h}{7 \times N_h \times N_v} \times 100\%$。

示意图1

多无人机的动态移动设计如图2所示，在所提出的框架中，无人机是同构的。因此，所有无人机在深度强化学习框架中共享相同的神经网络（评估Q网络和目标Q网络），并通过共享相同的神经网络来保证模型同步。cDQN的详细算法在算法1（离线训练阶段）和算法2（在线测试阶段）中提出。离线训练阶段针对静态随机均匀分布的地面终端，旨在将基本移动策略存储到cDQN的大脑中。随后，在在线测试阶段，无人机从均匀分布的初始位置出发，在随机漫游的地面终端环境下持续尝试并更新基本移动策略。此外，为了加快对地面终端移动行为的捕捉，每个测试步数使用一批经验样本来更新移动策略。因此，无人机能够在短时间内适应地面终端的移动，获得高效的移动策略，以保障系统的实时下行链路容量。所提出的cDQN算法在我们系统中的架构如下所示

示意图2

示意图3

如图3所示，子图展示了神经网络架构（评估Q网络和目标Q网络）。

V. 实验结果

在本节中，我们考虑一个1.5 km × 1.5 km的方形区域。30个地面终端均匀分布在给定区域，并且所有地面终端在该区域内随机漫游。此外，在所提出的cDQN算法中，我们为目标Q网络和评估Q网络建立了一个三层神经网络。该神经网络包括输入层、隐藏层和输出层。共有64个神经元在隐藏层中，使用ReLU作为激活函数。表II展示了我们仿真的其他参数。此外，我们采用下行链路容量和覆盖率作为cDQN设计多无人机轨迹的评估指标。

示意图4

图5展示了cDQN三维移动策略与最优部署、均匀部署和随机部署的性能比较。具体而言，最优部署表示通过遍历方法获得的最优位置（容量）。更具体地说，遍历方法是指遍历所有可能的无人机位置以找到最优的无人机位置，该方法较为耗时。随机部署指无人机在每个时隙选择（飞往）一个随机位置；均匀部署意味着无人机在给定区域内均匀部署并保持悬停。在此仿真中，无人机速度的参数设置与参考文献[47]相同。特别地，无人机水平速度和垂直速度分别为50 m/s和25 m/s。所有地面终端根据随机游走模型[48][49]在给定区域内以2 m/s的速度随机漫游。根据图5中的2000次测试迭代，可以直观地观察到，无人机从均匀分布的初始位置出发，通过持续学习和改进动作策略来适应地面终端复杂的动态变化。特别是，无人机进行探索从均匀分布的初始位置出发，并学习适应地面目标的动态，因此在测试过程初期，最优部署与cDQN之间的差距较大。在学习到最优动作策略后，无人机能够跟踪地面目标的移动。此外，在测试步数730、970和1330时存在性能损失，原因是无人机有$\varepsilon$概率选择随机动作，而随机动作导致性能下降。总之，图5证明了无人机能够通过实时更新其三维位置来适应并跟踪地面目标的移动。

示意图5

示意图6

图6展示了所提出的cDQN三维移动策略在容量方面的收敛性，图7展示了所提出的cDQN三维移动策略在归一化成本方面的收敛性。在图6和图7中，每条曲线代表一次独立试验（训练回合），所有试验具有不同的初始位置。根据结果，图6中每条曲线表明无人机持续探索并学习动作策略以提升系统性能。此外，可以看出所提算法在约12000个训练步数时达到最优容量。在图7中，仿真结果表明cDQN算法持续更新对偶变量（拉格朗日乘子）以获得最小成本。具体而言，该成本表示满足覆盖约束的程度。当覆盖约束未被满足时，成本大于零；未被服务的地面终端越多，成本越大；当约束被满足时，成本等于零。显然，在12000个训练步数后成本为零，即覆盖约束在12000个训练步数后得到满足。根据图6和图7可知，尽管无人机的初始位置不同，该算法仍能在约12000个训练步数内收敛。

示意图7

图8显示了在静态场景和移动场景下二维探索与3D探索之间的性能比较。X轴和Y轴分别表示训练步数和容量。图8(a)揭示了在地面终端静止情况下，二维探索与3D探索的性能比较。具体而言，二维探索是指无人机在平面上进行探索并学习动作（所有无人机具有固定高度），而3D探索是指无人机在空间中进行探索并学习动作（所有无人机可以具有不同高度）。显然，3D探索的性能优于二维探索，因为无人机可调节的高度为其搜索最优位置（最优容量）提供了额外的自由度。然而，3D探索大约在12000个训练步数时收敛，比二维探索（7000个训练步数）更慢。这是由于3D探索的状态空间大于二维探索的状态空间所致。对于二维探索，随着无人机固定高度的增加，容量会减小，因为此时距离主导了路径损耗。图8(b)显示了在地面终端移动情况下二维探索与3D探索的性能比较，展示了在稳定跟踪阶段的性能对比。显然，在移动场景下，3D探索同样优于二维探索。

示意图8

图9展示了在二维探索和3D探索中每架无人机的容量对比。X轴和Y轴分别表示训练步数和容量。在此仿真中，我们将每架无人机的容量定义为系统的子容量。根据该仿真的结果，显然3D探索的总容量优于二维探索的总容量，且3D探索的子容量也优于二维探索的子容量。原因是，在3D探索中，无人机拥有更大的空间（自由度）来进行协调并减少干扰。此外，可以观察到3D探索的初始总容量和子容量低于二维探索的初始总容量和子容量。原因是我们二维探索中为无人机设置了更优的初始位置，以充分考察二维探索和3D探索的性能。最后，3D探索的性能优于二维探索。这一现象也在备注1所提供的见解中得到了证实。

图10绘制了在无人机高度不同上限 $h_{\max}$ 下容量与训练步数的关系。X轴表示训练步数，Y轴表示容量。图中的曲线表示不同$h_{\max}$的试验，所有试验具有相同的初始位置。根据仿真结果可知，随着无人机高度上限 $h_{\max}$ 的增加，容量也随之增加。该现象可能由两个主要原因导致。从机器学习角度分析，原因是无人机高度上限影响了无人机的探索空间，更大的 $h_{\max}$ 会导致更大的探索空间和更高的容量。当 $h_{\max}$ 超过250米时，容量达到上限并保持不变，因为无人机的最优位置位于高度上限为250米的空间内（即无人机高度上限为250米）。具体而言，无人机高度上限决定了其探索空间的大小，更大的探索空间（即更高的高度上限）会带来更好的性能。当探索空间的高度达到某一特定值时，性能将达到上限而不再提升，这是因为无人机的最优位置（高度向量）已包含在该特定高度值对应的空间中。从信道角度分析，原因是更高高度可带来更好覆盖，从而获得更优的性能。最后，在图10中标注了无人机的最优高度向量 $h^*$。

图11描述了容量与小批量样本大小之间的关系。X轴和Y轴分别为训练步数和容量。该图中的三条试验曲线具有相同的初始位置。根据图11可以直观地看出，当小批量样本大小分别为50、500和5000时，cDQN算法分别在约22000、15000和12000训练步数时收敛。显然，小批量大小为5000时收敛速度更快。这是因为较大的小批量大小能更充分地利用样本，从而加快所提出的cDQN算法的收敛速度。此外，所提算法中使用的小批量大小为5000时，在容量方面优于50和500的情况。小批量大小为50和500更容易收敛到次优值，导致容量较低。这一现象也得到了备注2中提供的见解的证实。在我们的仿真中，我们采用5000的小批量大小，以充分利用样本确保所提算法的性能。同时，这将增加训练所提算法的复杂度。

图12绘制了容量与学习率取值之间的关系。X轴和Y轴分别为训练步数和容量。该图中所有三次试验（曲线）具有相同的初始位置。根据此仿真结果，直观可以看出，当学习率取值分别为0.1和0.01时，cDQN算法分别在约20000和12000训练步数时收敛。显然，学习率为0.01时收敛速度更快。较大的学习率会使智能体迅速进入缓慢更新cDQN模型参数的阶段并停止学习。这一现象也在备注3所提供的见解中得到了证实。此外，在容量方面，我们算法所采用的学习率0.01优于0.1和1。学习率取0.1和1时更可能收敛至次优值或无法收敛，从而导致容量较低。在我们的仿真中，采用了学习率0.01，这更有可能收敛到最优值，以确保所提算法的性能。

图13展示了三个无人机的轨迹以及地面终端的初始位置和最终位置。三条曲线代表无人机的轨迹，蓝色圆圈/星号和红色圆圈/星号分别表示地面终端/无人机的初始位置和最终位置。根据该图，所有地面终端在一个特定区域内随机漫游。三个无人机从均匀分布的初始位置出发，以适应地面终端的移动。特别是在无人机飞行期间，所有无人机持续学习并更新移动策略，以向所有地面终端提供高效且高质量的服务。

VI. 结论

本文研究了多无人机有效轨迹设计，以提升通信系统的容量。在覆盖约束下，将无人机的三维动态移动问题建模为一个受限马尔可夫决策过程问题，并提出了一种cDQN算法来求解该建模问题。在所提出的cDQN模型中，每架无人机作为一个智能体，探索并学习其三维部署策略。该cDQN模型的目标是在最大化系统容量的同时，尽可能保证所有地面终端均被覆盖。为了满足覆盖约束，采用原始‐对偶方法交替训练原始变量和对偶变量。此外，为了减小cDQN算法的动作空间，利用先验信息通过动作过滤器剔除无效动作。实验结果表明，无人机能够根据所提出的cDQN算法得到的三维部署策略，在覆盖约束下自适应地调整移动以跟踪地面终端。在未来的工作中，我们将考虑采用自适应无人机速度，而非本文中的恒定速度。特别是，自适应无人机速度的三维轨迹设计是一项具有挑战性的课题，因为它会导致巨大的状态‐动作空间和维度灾难。