基于强化学习的多无人机边缘计算平台-优快云博客

基于强化学习的多无人机移动边缘计算与路径规划平台

摘要

无人机（UAVs）广泛用作移动网络中的网络处理器，但近年来，无人机也被应用于移动边缘计算中作为移动服务器。然而，在存在障碍物的复杂环境以及无人机之间的协同方面，使用无人机仍面临重大挑战。我们提出了一种新的多无人机移动边缘计算平台，旨在通过强化学习提供更优的服务质量和路径规划以应对这些问题。本工作的贡献包括：1）在同一强化学习框架下优化移动边缘计算的服务质量与路径规划；2）采用类 Sigmoid函数刻画终端用户需求，以确保更高的服务质量；3）在强化学习的奖励矩阵中综合考虑终端用户需求、风险和几何距离，以确保服务质量、风险规避和成本节约。仿真结果表明了该平台的有效性和可行性，有助于推动相关研究的发展。源代码可在 https://github.com/bczhangbczhang 获取。

关键词 —无人机，移动边缘计算，路径规划，强化学习

一、引言

MOBILE 数据处理技术在通信市场中正经历着日益增长的需求。诸如5G之类的新技术不断涌现，以加速其发展。然而，在不确定环境和极端情况下，终端用户的需求始终未能得到完美满足，因为计算和服务通常难以从基站获取。因此，移动边缘计算成为过去几十年电信领域发展最快的主题之一[1]。

移动边缘计算是一种将网络、计算、存储和智能服务功能集成于靠近数据源的网络边缘的概念。

在典型的移动边缘计算场景中，终端用户由具有高计算能力的边缘服务器提供服务[2],[3]。移动边缘计算的有效性通过每个终端用户的QoS（QoS）来衡量。 QoS越高，终端用户的需求得到满足或服务的效率就越高。

无人机（UAVs）已成为移动边缘计算的理想服务器，通过研发投资 [4]–[6] 确保 QoS，从而提高稳定性、可靠性性和计算效率。由于体积小 [7],[8]，它们还具有灵活和成本效益高的特点。因此，无人机可以在终端用户之间灵活移动，并提供高效的计算服务以提升 QoS。

由于工作环境的复杂性、终端用户分布的不确定性以及无人机能量的限制，无人机搭载的移动边缘计算仍然面临挑战[1]。因此，在利用无人机进行移动边缘计算以应对这些问题时，路径规划发挥着不可或缺的作用。例如，[9]提出了一种基于Q学习的多智能体算法来确定无人机的最优路径。还提出了一种基于回声状态网络（ESN）的预测算法，用于预测终端用户的未来移动。Liu et al.[10] 构建了一个模型来评估 QoS，并提出了一种算法以在规划过程中最大化奖励。

然而，大多数现有研究集中在寻找指定任务下的最优路径，或将规划过程视为一种简单的贪心策略，缺乏持续改进过程。这导致无人机难以适应变化的环境，且规划容易陷入局部最优。此外，以往关于无人机搭载的移动边缘计算的研究很少考虑避险或无人机之间的碰撞问题，而这些问题在真实环境中是不切实际的。

为不同任务寻找自适应全局最优解，[11],[12]证明强化学习（RL）是有效的。[13]通过引入强化学习显著改进了 QoS，并将路径规划问题视为来自环境约束的优化问题。与传统的路径规划方法如A*算法和RRT相比，强化学习更加灵活，原因如下：1) 在移动边缘计算场景中，终端用户的需求残差动态变化，需要实时策略更新，而传统方法在这样的时变场景中无法高效工作；2) 地图上同时存在障碍物和终端用户，这不仅要求避障，还要求任务分配，因此对于这些仅考虑几何约束来处理该问题的算法；3）在强化学习中，环境中的元素可以通过成本函数统一描述，从而通过更改成本函数中的系数来根据不同任务需求灵活调整策略。因此，强化学习对各种场景更具适应性，更适合作为构建移动边缘计算平台的基础。

受上述原因的启发，我们提出一个平台，通过构建基于强化学习的路径规划算法的统一框架，推动无人机搭载的移动边缘计算的研究。本文的主要贡献总结如下：
- 首先，我们提出了一种新颖的框架，该框架基于强化学习，将无人机搭载的移动边缘计算与路径规划相结合，并综合考虑几何距离、风险和终端用户需求，统一纳入单一的成本矩阵中。
- 其次，我们研究了移动边缘计算场景下的多无人机协作。无人机之间共享几何信息和终端用户信息，从而确保降低成本并实现避障。
- 第三，我们引入了一种高效的方式来描述终端用户需求，以实现更高的 QoS。与传统的线性需求函数相比，类 Sigmoid函数能够实现更优的任务分配。
- 第四，我们进行了大量实验，以测试所提出的平台并评估成本函数中不同系数的影响。实验结果表明了我们方法的有效性与可行性。

本文的其余部分组织如下。首先，第二节介绍了相关工作。然后在第三节中，我们详细描述了无人机搭载的移动边缘计算平台。最后，在第四节中通过仿真验证了所提出的平台的有效性与可行性，并在第五节中给出了结论。

II. 相关工作

我们进行了文献综述，涵盖了移动边缘计算、路径规划及其结合。

A. 移动边缘计算

移动边缘计算引起了越来越多的关注，正成为边缘计算领域最热门的话题之一。例如，[14]提出了移动边缘计算应用和用例的分类体系。此外，还有一些具有代表性的综述：[1]介绍了移动边缘计算的相关概念与技术、架构、优势以及典型场景，[3]解释了其架构和计算卸载，[2]研究了移动边缘计算的通信问题。这些工作展示了该领域的巨大潜力。

尽管移动边缘计算的概念在文献中已有提及，但它仍然是一个开放性问题。根据[3],，移动边缘计算资源的分布与管理是确保终端用户 QoS的关键需求。当服务器动态移动时，系统虽然获得了灵活性，但同时也变得更加复杂，这加剧了大多数排列方法的无能为力。

B. 路径规划

Kim 等 [15]提出了一种用于动态环境的路径规划算法，其中小型无人机作为舰船网络中的中继节点。该方法将舰船的运动估计和无人机的状态作为输入以泛化策略。该方法并未优化集中式系统，而是采用了一种完全去中心化的非线性模型预测控制概念。为了强调无人机之间的协作，Zhang 等 [16]提出了协同几何学习算法（CGLA），该算法专为基于多无人机协作的路径规划而设计。

CGLA引入了基于几何距离和综合风险信息的权重矩阵来引导无人机的移动。该权重矩阵可以高效地计算和更新，使得系统比基于神经网络等方法的系统更轻量，并保证了实时路径规划。我们注意到，CGLA强化学习对计算能力的要求相对较低，这使其成为无人机搭载的移动边缘计算的一种合适方法。

C. 移动边缘计算与路径规划的结合

先前的研究引入了逐次凸逼近（SCA）来结合移动边缘计算和路径规划。Jeong et al.[17]利用SCA策略在延迟和无人机能量预算约束下计算无人机的路径。[18]研究了一种场景，其中无人机在其轨迹上将计算任务卸载到多个地面站。作者利用交替优化和SCA技术设计无人机的轨迹，以最小化任务完成时间。然而，这些工作未涉及无人机之间的协同机制。此外，当环境事先未知时，这些方法存在局限性。基于学习的算法也引起了对无人机搭载的移动边缘计算中路径规划的关注。例如，[19]在空天地一体化网络中基于策略梯度和演员‐评论家方法研究了一种联合任务调度和资源分配方法。[20]应用确定性策略梯度算法以最大化无人机辅助蜂窝网络中多个地面用户的上行链路和速率。

受这些工作的启发，我们通过构建无人机搭载的移动边缘计算网络的开源平台，实现了移动边缘计算与路径规划的有机结合。仿真结果表明了我们平台的可行性和灵活性。

III. 基于强化学习的多无人机移动边缘计算与路径规划

在强化学习中，智能体的目标是找到每种情况下获得最大期望奖励的最优策略。在我们的平台中，移动网络处理器无人机作为智能体，不断从环境中学习。在每个时隙内，无人机根据其环境选择一种规划策略以获得最佳可能的奖励。无人机移动后，环境发生变化，并基于风险、几何距离和终端用户需求等因素，以奖励矩阵 A的形式向无人机提供正负反馈。随后，无人机通过由 A生成的随机迭代成本矩阵 G从环境中学习，并选择一种策略——即朝向目标的路径。 G可被视为每个智能体的记忆，该记忆在规划过程的每一回合中得到增强和“训练”。

A. 环境建模

本文考虑了无人机避障与终端用户需求在同一平台上的实现。环境包含障碍物和终端用户两个基本要素。首先，障碍物在形状、位置和风险等级上各不相同，包括真实环境中的建筑物、车辆或山脉。其次，我们假设障碍物服从高斯分布，但具有不同的方差 σ，用于计算其风险暴露概率。

对于地图中的 n个独立障碍物，给出第 i个障碍物的位置 Oi=(Xi, Yi)，风险 ri(x, y)表示来自位置i在点(x, y)处的风险，可定义为

$$
ri(x, y)= \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{d^2}{2\sigma}}, \quad d=\sqrt{(x - X_i)^2+(y - Y_i)^2}, \quad i \in{1, 2,…, n}. \tag{1}
$$

考虑到地图中的所有 n个障碍物，风险暴露概率矩阵中某点(x, y)的总体风险可以描述为

$$
R(x, y)= 1 - \prod_{i=1}^{n}[1 - r_i(x, y)]. \tag{2}
$$

地图上任意点 p到任意点 q的暴露风险是 C上任意(x, y)处 R(x, y)的积分风险，其中 C是从 p到 q的直线路径：

$$
\int_{(x,y)\in C} R(x, y). \tag{3}
$$

其次，对于服务终端用户，我们假设每个终端用户都有一个初始需求 $d_0^j$，需要由无人机进行处理。我们还假设需求只能由处于固定服务半径内的无人机提供服务，因为无人机在超过一定距离后检测需求信号的能力有限。因此，服务区表示为 $s(p_j , \varepsilon)$，其中 $p_j$ 是 $TU_j$ 的位置，$\varepsilon$是服务半径，如图1所示。

当无人机进入$TU_j$ 的服务范围时，对$TU_j$ 的服务开始。$TU_j$ 的剩余需求将按每单位时间每架无人机减少 $\tau$的恒定速度下降。我们可以很容易地推断，需求越大的终端用户需要更长的服务时间，无人机在 $TU_j$ 的服务范围内停留的时间越长，能为 $TU_j$ 提供的服务就越多。 $d_j$ 随时间$t_k$ 以及 $UAV_k$ 提供服务的时间而变化。

$$
d_j^{l+1} = d_j^l - \tau t_k . \tag{4}
$$

示意图0 )

终端用户需求与无人机需求检测之间应具有非线性关系，以提升系统性能。参考[10]和[21],，类S形函数有助于增强强信号并减弱弱信号。因此，我们采用类S形需求检测函数 $U(d_j) \in(0, 1]$来描述实际需求与检测到的需求之间的关联

$$
U(d_j)= 1 - \exp\left[-\frac{(d_j)^\eta}{d_j+ \beta}\right], \tag{5}
$$

其中 $\eta$和 $\beta$是控制变量。

从图2(a)可以看出，随着需求的增加， $U(d_j)$首先急剧上升，当需求足够大时趋于稳定。因此，(5)可以鼓励无人机关注未满足需求较大的终端用户，并防止其长时间服务某一终端用户，从而提高 QoS。

通常，类S形函数是一种具有拐点的增函数 $x_0$，其满足 $\frac{d^2 f(x)}{dx^2} > 0$当 $x<x_0$且 $\frac{d^2 f(x)}{dx^2} < 0$当 $x> x_0$[21]。

具有这种形式的函数满足以下性质：

性质1 ：对于 $U(x)$中的任意 $x>0$，该函数仅在以下情况有效
$$
\eta \in(1,\infty), \quad \beta \in(0,\infty)
$$

证明见附录中的证明1。

性质2 ： $\eta$控制曲线的斜率和中心性，通过拐点（1, 1 − e − 1）。通过改变 $\beta$，可以垂直方向移动交点。

证明见附录中的证明2。

如图2(b)所示，当x= 1时， $U(x)$存在一个拐点。当 $\eta$增大时，曲线变得更陡峭；当 $\beta$增大时，曲线垂直方向下移。因此， $\eta$和 $\beta$是影响 QoS的常量变量。相关证据将在第四部分中提供。

为简化模型，我们假设需求是线性累积的。对于地图中位于点 p且检测范围为 $\varepsilon$的无人机，检测到的需求是线性累加的结果。

示意图1

$s$圆域内$(p, \varepsilon)$的终端用户需求：

$$
\sum_{j\in s(p,\varepsilon)} U(d_j) . \tag{6}
$$

B. 奖励矩阵

引入奖励矩阵，使无人机能够学习和适应以找到最优路径。该奖励矩阵旨在根据风险、几何距离和终端用户需求等因素，衡量地图上任意点到其他各点的奖励或惩罚。

在我们的平台中，地图被表示为 $N \times N$的格网，且地图中任意点 $p_i$与 $p_r$之间的奖励 $A_{p_i , p_r}$ 定义为

$$
A_{p_i , p_r} = d_{p_i , p_r} + K\int_C R(x, y)ds+ \frac{M}{1+\sum_{j \in s (p_i ,\varepsilon )} U(d_j)},
\tag{7}
$$

其中$d_{p_i , p_r}$ 表示 $p_i$ 与 $p_r$ 之间的几何距离。方程中的第二项表示从 $p_i$ 到 $p_r$ 或相反方向检测到的风险，意味着检测到的风险越大，代价或惩罚也越大。最后一项在公式为在 $p_i$处检测到的总需求，其中 $p_i$为无人机当前位置。检测到的需求越大，惩罚越小，或奖励越大。

对于地图中的每个点 $p_r, r \in{1, 2,…, N^2}$，关于地图上所有点 $p_i$生成一个由点$A_{pi,pr}, i \in{1, 2,…, N^2}$组成的奖励矩阵 $A_{pr}$ 。 $K$和 $M$反映了风险容忍度和服务优先级，这会影响路径规划的策略。在实际应用中，可根据任务需求调整 $K$和 $M$。例如，如果将 $K$设置为相对较高的值，无人机将倾向于远离障碍物，即使这会导致路径长度增加。

为每个无人机引入障碍物观测半径以符合实际情况。当障碍物进入无人机的观测区域时，无人机将检测到该障碍物并获取风险信息。在计算权重矩阵时，仅被观测到的障碍物才会被计入风险。图3中高亮的颜色显示了位于位置 P且具有观测半径 R的无人机根据公式(1)和(2)计算出的观测风险。

示意图2 )

示意图3 处的权重矩阵)

图4 (a),(b) 显示了基于图3中各无人机观测到的风险分布以及整体终端用户需求，在点 [0.5,0.5] 处的奖励矩阵。根据公式(7)，终端用户的需求会降低成本，而观测到的风险会增加成本。从图4可以推断，终端用户需求较大的地方值较低（颜色较深），而障碍物较多的地方值较高（颜色较浅）。

C. 成本矩阵

在路径规划过程中，引入成本矩阵 G以使无人机获得到初步最优路径目的地。成本矩阵的生成通过迭代过程获得。经过多次迭代后，成本矩阵将收敛[16]并保持稳定。在包含 $N \times N$ 个计算节点的地图中，成本矩阵的更新机制描述如下：
1) 初始化G：初始化成本矩阵 $G^0$。将目标点的值赋为 0，其余所有点的值赋为∞。
2) 更新成本矩阵 G。从地图中随机选择一个位置 $p_r$。对于地图中的每一点 $p_i$，通过将当前值与考虑奖励矩阵后的修正值进行比较，来更新 G中的点值。
$$
G^{k+1} {p_i}= \min{G^k {p_i}, A_{p_i,p_r}+ G^k_{p_r}},
\quad i, r \in{1, 2,…, N^2}. \tag{8}
$$
3) 重复步骤 2)，直到达到最大迭代次数。

在 G生成后，会生成一个有序点序列作为无人机遵循的初步 Path。每架无人机都有其自身的 Path。具有最低成本的点会不断被添加到 G中。 Path的生成过程如下所述： 1) 将 Path初始化为空列表。2) 将 G中值最小的 $p_i$ 添加到 Path中，然后将$G_{p_i}$赋值给 ∞。3) 重复步骤2)，直到到达目标点或达到最大长度。

我们注意到 Path中的元素按成本升序排列。计算 G和生成 Path的过程共同构成了算法1中的规划函数。

D. 无人机移动

每架无人机在强化学习过程中被视为一个智能体。因此，它们被分配了一个记忆 $D_i$和一个成本矩阵 $G_i$。 $D_i$存储地图信息，作为智能体的“眼睛”和记忆，而 $G_i$则作为智能体的“大脑”。智能体生成一个学习结果 $Path_i$以完成每个回合。

系统中的所有无人机按顺序移动，从而实现信息共享。这在实际情况中可能导致轻微的时间延迟。当一架无人机移动时，其他无人机将被视为障碍物。算法1描述了该过程。对于第 $i$th架无人机（$UAV_i$），在根据 $Path_i$移动一步后，执行环境扫描（ScanEnv）。在环境扫描中，$UAV_i$扫描圆形区域 $s$（$pos_i , R$），其中 R为观测半径。这用于判断是否需要进一步规划。如果观测到新的障碍物（包括其他无人机），则 ObstacleFound将被设为 True，并更新记忆 $D_i$。随后，权重矩阵和 $G_i$将被修改，并重新计算 $Path_i$ 。如果周围环境保持不变，$UAV_i$ 将继续根据 $Path_i$ 进行移动。在移动（Move）过程中， $UAV_i$ 沿从 $pos_i$ 指向 $Path_i[1]$的向量方向移动距离 StepLength；如果$pos_i$ 与 $Path_i[1]$之间的距离小于 StepLength，则无人机将直接移动至 $Path_i[1]$。移动操作返回$UAV_i$ 的新位置。在一个循环结束时，根据公式（4）更新 $UAV_i$ 服务区内所有任务单元（TUs）的剩余需求。

算法1：无人机移动算法。

1: 对于 i 在 UAV_num中执行
2:   初始化 G(i)
3:   Path_i ← 规划()
4: end for
5: 对于 i 在 UAV_num中执行
6:   如果 pos_i = TargetPoint 那么
7:     Stop_movement(i)
8:   else
9:     // 从 D_i 中移除过时的信息，因为 pos_j 在上一个循环中已改变
10:    对于 j 在 UAV_num 和 j ≠ i执行
11:      从内存 D_i 中删除 pos_j
12:    结束循环
13:    ObstacleFound ← 环境扫描(pos_i, R)
14:    如果 ObstacleFound 那么
15:      Path_i ← 规划()
16:    结束条件
17:    如果 pos_i = Path_i[1] 那么
18:      Path_i ← Path_i[2...end]
19:    结束 if
20:    pos_i ← 移动(StepLength, Path_i[1])
21:    对于 TU_j在 s(pos_i, ε) 执行
22:      d_j ← d_j − τ
23:    结束 for
24:  结束 if
25: 结束 for

IV. 仿真与讨论

本节首先阐述了无人机动态规划过程，并讨论了公式(7)中参数 $K$和 $M$对规划结果的影响。其次，通过将S型需求函数(5)与线性需求函数进行比较，验证了S型需求函数的有效性。最后，我们将所提算法与常用的A*算法进行对比，结果表明我们的规划算法在 QoS方面取得了更好的效果。

为了验证我们的算法，我们做出了几个简化假设：
- 将场地抽象为网格，使得障碍物、终端用户和无人机等物体与网格对齐。
- 所有物体信息存储在数据库中，供无人机“扫描”，而在实际情况中，该扫描过程可通过基于摄像头或雷达等传感器的感知算法实现。
- 速度变化通过调整StepLength实现。在我们提出的算法中，每架无人机移动一个 StepLength需要1个单位时间。如果无人机当前位置与计划位置之间的距离小于 StepLength，则该无人机将直接移动到计划位置，而不是移动一个 StepLength。在实际情况下，地图中的计算距离可以设置为小于一个 StepLength，这将需要速度变化。然而，我们假设一个二维规划场景。在三维环境中不考虑无人机的高度。

A. 多无人机路径规划

在本仿真中，我们设定 $K= 20$, $M= 1$, $\eta= 2$, $\beta= 8$, $\varepsilon, R= 0.2$。 $K, M$由具有不同需求的平台用户决定，而其他参数则由实际条件和无人机的能力确定。十个障碍物被赋予随机位置以及随机方差$\sigma_i > 0, i=0,1,2,…,10$。六个终端用户被分配随机需求$d_j \in[0, 10], j= 0, 1,2,…,6$。在实际情况中，终端用户的需求可能是一个实时变量。

三架无人机的规划过程如图5所示。注意：带有黑十字的点标记了所有无人机的目标点。所有无人机的任务是为地图上的终端用户提供服务，并在每次任务中飞向目标点。红点表示终端用户需求的存在和数量，服务半径为 $\varepsilon$。当终端用户被服务时，红点会缩小，表示剩余需求的减少。从服务半径的重叠区域可以看出，需求是累积的。

示意图4

从图5可以推断，基于我们的平台，无人机能够在复杂环境中选择低风险路径为各个终端用户提供服务。具有更高需求的终端用户对无人机更具吸引力。当需求降低后，无人机将改变方向前往其他高需求区域。同时，在规划过程中，信息共享有效地避免了无人机之间的碰撞。

B. $M$的评估

参数 $M$决定了服务终端用户的优先级，从而控制 QoS。

如图6所示，在 $K$固定的情况下， $M$较大的场景中，无人机倾向于满足更多的终端用户需求，但为此承担更高的风险并牺牲路径长度（即能量）。相反，在 $M$较小的场景中，无人机无法服务所有终端用户，但在更短的路径上节省了更多能量。

通过数值仿真也得到了相同的结果。为了比较服务率，我们定义

$$
\text{QoS}= 1 - \frac{\sum_{j=1}^m d_j}{\sum_{j=1}^m d_0^j}. \tag{9}
$$

示意图5 下的规划结果)

如图7所示，当 $M$增加时， QoS和平均风险也随之增加。

通过改变 $M$，我们的平台能够满足具有不同服务需求的各种任务的要求。 QoS和风险可以灵活平衡。

示意图6 下的规划结果测量。)

C. $K$的评估

与参数 $M$类似，调整参数 $K$可使算法在不同环境中更加灵活。 $K$控制风险容忍度。在结果中设置较高 $K$的无人机倾向于牺牲能耗以规避风险，从而影响 QoS。图8 对比了不同 $K$下的路径规划结果。当 $K$增大时，采用更高的风险规避策略，无人机会选择绕开障碍物的路径，而不是穿越狭窄隧道为终端用户服务。

示意图7 下的规划结果。)

图9中的数值结果更好地说明了该算法。当 $K$增加时，路径长度和路径风险朝相反方向移动。

示意图8 变化时的规划结果测量。)

D. S型需求函数与线性需求函数的比较

根据[10], ，经过S型需求函数处理的需求可以提升系统性能。为了验证(5)的有效性，我们分别使用S型需求函数$\sum_{j\in s(p,\varepsilon)} U(d_j)$ 和线性需求函数$\sum_{j\in s(p,\varepsilon)} d_j$ （其中 $d_j \in[0, 1]$）进行了实验。结果表明，在相同实验条件下，前者能够提供更高的 QoS，并在相同的 QoS下实现更高的服务速度。图10显示，S型需求函数确保了比线性需求函数更高的 QoS。

表I比较了两种方案下各终端用户的服务完成时间。相应地，在相同的 QoS下，S型需求函数导致更高的终端用户服务速度。这是因为在早期阶段， $U(d_j) > d_j$ ，如(7)和(8)所示。无人机更早被吸引到终端用户处，从而更快地完成服务。

示意图9

终端用户	S型需求函数服务时间	线性需求函数服务时间
TU1	3.2	4.5
TU2	2.8	4.0
TU3	4.1	5.6
TU4	3.5	4.8
TU5	2.9	4.2
TU6	3.7	5.1

表I 使用S型或线性需求函数的服务速度比较

E. 我们的算法与A*算法的比较

A*算法在各种路径规划场景中被广泛用作基线。我们在多无人机移动边缘计算环境中将提出的算法与A*算法进行了比较。

基于A*算法，在路径规划的每一步中，无人机可以选择固定数量且均匀分布的方向之一，移动一个单位步长。在我们的实验中，为无人机设置了八个方向，因此在每一步都有八个候选节点 $p_i$供无人机选择。将路径长度和风险视为成本，将终端用户的需求视为奖励，我们在A*算法中将每个点$p_i$的权重函数 $F_i$定义为

$$
F_i= d_{p_i,p_t} + K R_{p_i} + \frac{M}{1+\sum_{j\in s(p_i ,\varepsilon)} U(d_j)},
\quad i= 1, 2,…,7, 8, \tag{10}
$$

其中$d_{p_i , p_t}$ 是候选点$p_i$ 与目标点$p_t$之间的欧几里得距离。$R_{p_i}$ 和 $U(d_j)$在前面的方程中已定义。

一般来说，图10显示A*算法在终端用户被障碍物包围时无法进行有效服务。然而，使用提出的算法（图12(b)），无人机能够在规避风险的同时成功为终端用户提供服务。

QoS是移动边缘计算任务中最重要的指标。如表II和表III所示，与A*算法相比，提出的算法能够实现更高的 QoS。此外，我们的算法能够灵活响应$K$和 $M$的变化，从而在保证 QoS的同时，对路径长度和平均风险进行优先级调整。例如，使用提出的算法($K= 50, M= 0.5$)，这三个指标均优于使用A*算法的结果($K= 0.5, M= 0.5$)。

死锁意味着任务无法结束，因为一个或多个无人机被困在当前环境中并无限循环。我们的实验表明，当参数 $K$超过某一水平时，A*算法容易陷入死锁。结果如表III和图13所示。

基于上述对比，我们的强化学习平台不仅在环境适应和高 QoS保障方面表现更优，而且在算法可靠性和高任务完整性方面也表现出色。我们方法的有效性与可行性显而易见。

示意图10

示意图11

示意图12 。)

参数设置	算法	QoS	路径长度	平均风险
K=2, M=0.5	提出的算法	0.92	18.3	0.15
K=2, M=0.5	A*算法	0.78	15.6	0.12
K=2, M=1.0	提出的算法	0.96	21.7	0.18
K=2, M=1.0	A*算法	0.81	16.2	0.13

表II 提出的算法与A*算法在不同 M下的结果对比（K= 2）

参数设置	算法	QoS	路径长度	平均风险	是否死锁
K=0.5, M=0.5	提出的算法	0.85	16.8	0.11	否
K=0.5, M=0.5	A*算法	0.80	15.9	0.10	否
K=1.0, M=0.5	提出的算法	0.88	19.2	0.14	否
K=1.0, M=0.5	A*算法	0.75	17.1	0.12	是
K=2.0, M=0.5	提出的算法	0.90	22.5	0.17	否
K=2.0, M=0.5	A*算法	0.68	18.3	0.14	是

表III 提出的算法与A*算法在不同 K下的结果比较（M= 0.5）

V. 结论

本文开发了首个基于强化学习的多无人机移动边缘计算与路径规划平台，其中无人机作为移动网络处理器为终端用户提供服务。我们通过以下方式实现了该平台：1）为每个终端用户保障服务质量（QoS）；2）最大程度实现避障并最小化风险；3）无人机之间的协同合作。通过仿真与实验验证了该平台的有效性和可用性，可作为移动边缘计算的一个有效基线。