边缘中心化赌博机学习

最新推荐文章于 2025-12-05 17:34:30 发布

原创最新推荐文章于 2025-12-05 17:34:30 发布 · 1k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#边缘计算 #任务卸载 #多臂赌博机 #鞅理论 #异构网络

面向多无线接入技术异构网络中任务卸载分配的边缘中心化赌博机学习

摘要

移动设备数据流量的指数增长导致需要采用异构网络（HetNets），以集成多无线电接入技术（multi‐RATs）实现快速协调的任务卸载分配。本文提出了一种面向多无线接入技术异构网络的新型移动边缘计算（MEC）架构，并设计了一种以MEC为中心的卸载决策机制。通过将目标任务建模为多臂赌博机（MAB）问题，我们开发了一种前传感知上置信界算法（FA‐UCB），能够应对网络状态信息的不确定性与非对称性。在回程延迟随时间独立同分布的前提下，严格证明了所提出的 FA‐UCB算法相对于具有完全先验知识的最优基准具有次线性遗憾界。此外，在restless鞅（RM）赌博机条件下，我们进一步提出了广义RM‐FA‐UCB算法，即使在非平稳网络动态下也能实现次线性遗憾界。数值结果验证了所提方案与算法的优越性。

索引词 —边缘中心任务卸载，鞅理论，多无线接入技术异构网络，多臂赌博机。

一、引言

第五代（5G）蜂窝通信技术正在全球范围内迅速发展并实现商业部署。据预测，到2021年智能终端数量将达到116亿台，全球每月移动数据流量将超过49艾字节[2]。蜂窝网络上的数据流量正持续呈现指数增长，每年增长一个数量级。尽管提供无处不在的连接和前所未有的容量，第五代移动通信技术无法单独承载全部数据流量。尽管蜂窝通信的部署速度无法跟上移动数据流量的增长，Wi‐Fi则起到了互补作用，体现在以下三个方面：i)提供与第五代移动通信技术授权频谱正交的额外频谱资源，且不会对其造成干扰；ii)部署成本低廉且使用免费，对网络运营商和用户而言都具有成本效益； iii)在网络设备和用户终端两端均具备高能效性。

由于这些原因，异构网络（HetNet）架构受到了越来越多的研究关注，其中多种无线接入技术（ multi‐RATs），例如蜂窝和Wi‐Fi链路，共存并相互作用。为此，[3]提出了一种基于多智能体强化学习的聚合无线接入技术方法来解决多无线接入技术问题，其中 Wi‐Fi接入点（AP）和长期演进技术（LTE）蜂窝基站共址且集成。在LTE/Wi‐Fi异构网络中，基于低复杂度的在线学习方法开发了一种无线接入技术选择算法，以减小策略空间并提高收敛性[4]。在[5],中提出了一种超级 MAC设计，以紧耦合方式集成多无线接入技术。通常，无线接入技术选择算法可分为两类：i）网络中心化和ii）用户中心化，具体取决于策略是由中心网络还是由分布式用户决定[6]。前者具有较高的计算复杂度和额外的通信开销，而后者由于可用的网络状态信息有限，可能导致显著的性能下降。

传统的无线架构是两层结构，由核心（云）和设备（用户端）组成。随着移动边缘计算（MEC）成为第五代移动通信技术的关键新组件，任务卸载是MEC中解决 [7],[8]的常见任务。为此，基于云‐边‐端架构，[9]提出了一种两阶段迭代方法以优化容量与流量分配。在[10],中，提出了一种基于边缘计算的Wi‐Fi卸载方案，该方案满足异构统计服务质量（QoS）或体验质量（QoE）约束。对于多移动边缘计算场景，[11]提出了一种整体性的联合任务卸载与资源分配策略，而[12]提出了一种博弈论方案。此外，[13]研究了在非正交多址接入（NOMA）支持的 MEC中，在差异化的上传延迟下的计算卸载。[9]–[13]的研究基于完全确定信息的可用性，在此条件下软件定义网络（SDN）和网络功能虚拟化（NFV）提供了实现全局优化和高效资源编排的有前景的解决方案[14]。然而在实际中，网络状态信息通常先验未知。

多臂赌博机（MAB）一直是开发在不确定性环境下随时间进行决策的算法的一种简单而强大的框架[15]。在任务卸载背景下，[16]提出了一种两阶段任务卸载算法，通过结合契约理论和多臂赌博机来应对信息不对称性和不确定性；[17]设计了一种基于多臂赌博机的自适应学习算法，考虑了任务工作负载以及每个边缘节点的出现时间。此外， [18]提出了一种基于匹配学习的任务卸载算法，以适应匹配冲突和信息不确定性；[19]将任务卸载控制建模为一个上下文多臂赌博机问题，并提出了一种基于汤普森采样的在线算法来探索未知选项。

此外，除了平稳赌博机的范畴之外，多臂赌博机问题在非平稳环境中也得到了研究，例如[20]–[27]。这些工作中的非平稳动态可分为两类，即切换型非平稳动态和漂移型非平稳动态。在前者中，奖励分布在未知时刻突然发生变化[20]–[22],[26],[27],；而在后者中，奖励均值在一定范围内连续变化[22]–[25]。这两类非平稳动态均未考虑后续奖励之间的时间依赖性。

本文中，我们为多无线接入技术异构网络提出了一种新颖的边缘中心任务卸载方案。在传统场景中，5G基站（即gNB）和Wi‐Fi接入点（AP）分别部署且无协调机制。如图1所示，我们提出一种新的网络架构，将它们共址部署于一个共享的多无线接入技术基站塔上。尽管共址部署，由于使用正交频段，gNB和AP之间不会相互干扰。同时在此处部署了一个移动边缘计算节点，可同时与gNB和 Wi‐Fi接入点保持超低延迟连接，并实现5G与Wi‐Fi之间的紧密耦合集成。

示意图0

通过在边缘部署具备计算能力的MEC服务器以及对Wi‐Fi和第五代移动通信技术接入进行灵活调度，我们可以有效平衡移动用户的使用成本和服务质量。特别是，我们利用并改进了一种基于多臂赌博机的在线学习方法，以应对不确定性与非对称性在稳态与非稳态动态下的网络状态信息。据我们所知，这是首个同时考虑以下四个方面的工作：i）多无线接入技术异构网络，ii）任务卸载控制，iii）多臂老虎机，以及iv）鞅理论。

为此，需要解决若干挑战。首先，多无线接入技术异构网络的标准化架构尚未集成5G专用功能，例如移动边缘计算。其次，如前所述，现有的网络和用户为中心的任务卸载方案在5G异构网络中并不有效或不具实用性。第三，现有的多臂赌博机算法忽略了实时可测前传延迟与先验未知的回传延迟之间的差异，从而导致显著的性能损失。特别是对于非平稳网络动态情况，亟需低复杂度高效多臂老虎机解决方案。

应对这些挑战，我们工作的主要创新贡献总结如下：与网络中心化或用户中心化的任务卸载决策方法不同，我们提出了一种新颖的边缘中心化卸载方案。移动边缘计算（MEC）负责决策：i)通过哪种无线接入技术（RAT）卸载任务，以及ii)是执行（计算）任务还是中继任务。每个决策均基于第五代移动通信技术（5G）和Wi‐Fi在服务质量（QoS）与成本之间权衡的综合比较。

我们提出了一种新颖的前传感知上置信界算法（ FA‐UCB），该算法能够在回程链路信息不确定的情况下实现可靠的任务卸载。通过充分利用前传状态信息，该算法减小了不确定性范围，提高了准确性和收敛性。研究表明，FA‐UCB相较于具有完全先验知识的离线最优基准，性能更优，并实现了有界的次线性遗憾。

在动态赌博机条件下，即当回程延迟遵循restless鞅（RM）演化过程时，我们对FA‐UCB算法进行推广，提出了一种新颖的RM‐FA‐UCB算法。借助鞅理论，我们证明了RM‐FA‐UCB算法在非平稳网络动态下相对于离线最优基准可实现次线性遗憾界。

本文的其余部分组织如下。首先，在第二节中介绍了系统模型和问题建模。接着，在第三节和第四节中分别针对稳态与非稳态动态提出了新的在线_bandit_学习算法。第五节给出了数值结果以评估所提出的方案，最后在第六节给出了结论。

II. 系统模型与问题建模

在本节中，我们介绍系统模型，并对任务卸载分配的相应优化问题进行公式化。

A. 移动边缘计算辅助的多无线接入技术架构

考虑图1中基于MEC辅助的多无线接入技术异构网络架构，其中蜂窝网络和Wi‐Fi网络以一种集中方式管理紧耦合方式，例如通过在它们之间建立受控的类隧道桥接/ 网关[28],[29]。这与Rel‐13标准一致，该标准允许 LTE‐WLAN连接将共址的LTE基站和Wi‐Fi接入点组合成所谓的xGBS[30].1值得注意的是，将不同无线接入技术的多个网络设备共址部署具有重要性和实用性。首先，多无线接入技术共址架构在实践中具有商业潜力。虽然独立部署导致了大量的重复建设和资源浪费，但将多种无线接入技术（甚至由不同服务提供商提供）共址部署于共享基站塔已成为一种新颖且高效的模式。例如，截至2019年，中国铁塔股份有限公司已运营和管理近200万座基站塔址，服务超过320万租户，显示出站点共址效率持续提升，租户比率不断提高至1.62[31]。此处共享基站塔中的租户包括但不限于蜂窝基站、Wi‐Fi接入点、NB‐IoT中继器、 LoRa网关等。随着5G时代异构网络场景越来越多，共址效率可进一步持续提升。其次，共址对于多无线接入技术设备实现快速协调至关重要。由于每次任务卸载决策都需要信息交换，延迟会使得完美协调变得困难。相比跨站点传输，本地背板接口提供了超低延迟的互连方式，从而为多无线接入技术异构网络保证即时协调。

该架构可适用于多种部署场景，例如室外通信塔、路边单元、智能路灯杆、工业支撑杆或室内分布系统。特别是，第五代移动通信技术和Wi‐Fi设备可由相应所有者作为完全独立的系统进行部署和运行，并通过不同的回程链路连接至远程云。

请注意，此处采用了一种以边缘为中心的卸载决策机制，其中MEC服务器充当学习代理，负责做出决策并存储经验数据。尽管SDN/NFV技术可以为云服务器（甚至其他任何节点）提供潜在的网络中心化解决方案，以获取完整的网络状态信息并实现全局优化和高效的资源编排，但回传延迟使得实现实时协调变得困难。此外，全局优化的复杂度随着网络规模呈指数级增长。同时，在用户为中心的方案中，用户被视为非协调的代理，其学习效率无法像在边缘为中心的方案中那样得到有效整合。总体而言，与网络中心化和用户中心化的方案相比，边缘为中心的方案在用户使用成本和服务质量之间能够实现更佳的平衡。

B. 系统建模

将整个时间范围离散化为包含 T 个时隙的集合 T，我们将每个时隙 t ∈ T 视为一个决策轮次。根据所提出的模型，任务卸载过程的总延迟 d(t)主要由两部分组成：i)前传延迟 df(t)，用于终端通过相应的5G/无线保真信道与gNB/AP 之间的接入链路；以及ii)回程延迟db(t)，用于gNB/AP与云之间的通信链路。我们有

$$
d(t)= df(t)+ db(t). \tag{1}
$$

我们假设终端只能选择其中一种无线接入技术。令两个二进制变量 α(t)和 β(t)分别表示前传无线接入技术的切换型非平稳动态决策以及每时隙 t的回程链路卸载选择决策；即

$$
α(t)=\begin{cases}1, & \text{5G access} \ 0, & \text{Wi-Fi access}\end{cases} \tag{2}
$$

and

$$
β(t)=\begin{cases}1, & \text{cloud-offloading} \ 0, & \text{MEC-executing}\end{cases} \tag{3}
$$

给定任务大小 x(t)，以及Wi‐Fi的实时数据速率 rwf(t)和第五代移动通信技术的实时数据速率r5 G(t)，我们可以计算前传延迟：

$$
df_{wf}(t)= x(t)/rwf(t), \tag{4}
$$

$$
df_{5G}(t)= x(t)/r5G(t). \tag{5}
$$

此外，我们定义fec(t)和 λ(t)分别为当前分配的计算资源（单位为赫兹）和计算强度（即每处理1比特任务所需的中央处理器周期数）。MEC执行延迟 debc(t)由此给出

$$
debc(t)= x(t)λ(t)/fec(t), \tag{6}
$$

其中fec(t)为先验未知， 3且 λ(t)主要取决于应用类型。为简化起见，可近似将其固定为常数 λ(t)= λ0, ∀t ∈ T。

在每种无线接入技术中，由于回程链路拓扑未知且复杂，移动边缘计算与云端之间的卸载延迟，即 db_wf(t)或d5b_G(t)，难以计算。然而，作为通信延迟和计算延迟的叠加，我们假设 db_wf(t)或d5b_G(t)与 x(t)成正比。

然后，整体任务卸载延迟由以下因素决定

$$
\begin{aligned}
d(t)&=(1 − α(t))[df_{wf}(t)+(1 − β(t))db_{ec}(t)+ β(t)db_{wf}(t)] \
&\quad + α(t)[df_{5G}(t)+(1 − β(t))db_{ec}(t)+ β(t)db_{5G}(t)] \
&=(1 − α(t))[df_{wf}(t)+ β(t)db_{wf}(t)] \
&\quad + α(t)[df_{5G}(t)+ β(t)db_{5G}(t)]+(1 − β(t))db_{ec}(t).
\end{aligned} \tag{7}
$$

在我们的系统模型中，MEC服务器同时充当计算执行者、任务中继器和分配协调器。因此，很难预先确定用户甚至MEC服务器本身的 fec(t)。

由于Wi‐Fi通常是免费的，数据传输的成本 c(t)= α(t)x(t)仅通过5G前传接入产生。4显然，我们应该同时考虑服务质量（即延迟）和数据传输成本。通过引入两个权重 w1和 w2，我们定义了一个综合效用成本函数：

$$
u(t)= w1d(t)+ w2c(t). \tag{8}
$$

C. 问题建模

如上所述，对于给定的决策对{α(t) β(t)}， u(t)与 x(t)成正比。我们将比值u(t)/x(t)视为任务卸载选项的判据。为了便于问题建模，本文固定 x(t)= x0, ∀t ∈ T。不失一般性，我们以毫秒为单位设定 w1= 1，以比特为单位设定w2= P/x0，其中 P是权衡延迟和成本的常数。

因此，综合效用函数被简化为一个无量纲量

$$
u(t)= d(t)+ α(t)P. \tag{9}
$$

因此，我们的目标可以描述如下

$$
P1: \min_{\alpha(t),\beta(t)} \sum_{t=1}^{T} u(t). \tag{10}
$$

根据{α(t) β(t)}的取值，任务可以采取以下方式之一： i)通过Wi‐Fi前传接入上传，并通过Wi‐Fi回传卸载到远程云；ii)通过第五代移动通信技术前传接入上传，并通过 5G回传卸载到远程云；iii)通过Wi‐Fi前传接入上传，并在MEC中执行；或iv)通过第五代移动通信技术前传接入上传，并在MEC中执行。我们将i)–iv)分别定义为动作 i= 1, 2,3,4。在每一轮中，需做出决策以选择其中一种卸载动作。随后，我们可以详细阐述综合效用成本函数，以及四种不同可选情况的具体表达式如下

$$
u_i(t)= df_i(t) + d_i^b(t)+ P \cdot \mathbf{1} {{i=2,4}} =
\begin{cases}
df {wf}(t)+ db_{wf}(t), & i= 1 \
df_{5G}(t)+ d5b_G(t)+ P, & i= 2 \
df_{wf} + db_{ec}(t), & i= 3 \
df_{5G}(t)+ db_{ec}(t)+ P, & i= 4
\end{cases} \tag{11}
$$

其中 $\mathbf{1}_{{\cdot}}$ 是一个指示函数，当大括号内的表达式为真时其值为 1，否则为0。

通常，我们定义 K 为可用的任务卸载动作集合， |K| = K 为集合中的元素数量。显然，此处我们有 K={1, 2, 3, 4} 和 K= 4。在每一轮次 t中， u_a(t)(t)表示在选择的卸载动作a(t) 下的效用成本= i ∈ K。因此，P1 可被重写为

$$
P2: \min_{{a(t)} T} \sum {t=1}^{T} u_{a(t)}(t). \tag{12}
$$

III. 在线盗贼学习算法

如果我们能在每次卸载决策之前掌握完整的先验信息（例如云端信息、回传链路状态和MEC资源利用率），则优化问题P2可以被解决。然而，从移动边缘计算的角度来看，存在信息不确定性与非对称性。

A. 信息的不确定性与不对称性

一方面，由于回程链路信息的不确定性，在所有轮次中均无法实现P2中的最优策略。另一方面，得益于用户端与其附近MEC之间前传数据速率的即时可测性，前传延迟可在卸载决策之前计算，从而缩小了不确定性的范围。对于先验未知的回传延迟，我们首先考虑一种（理想）平稳盗贼条件，即随机回传延迟在时间上独立同分布（ i.i.d.）。

接下来，我们借助多臂老虎机框架来求解信息不完全的问题。作为强化学习（RL）算法的一种特例，多臂赌博机以其简单性和高效性为特点。实际上，我们也可以应用其他强化学习（RL）算法来解决此问题。然而，通用的强化学习（RL）算法由于所谓的“维度灾难”而具有较高的复杂度。与云端相比，边缘服务器的计算能力较为有限，因此低复杂度是一个关键要求。基于这一原因，我们采用多臂赌博机方法来开发低复杂度的解决方案。

在每次做出决策 a(t)后，可观察到相应的效用成本，该成本服从一个未知分布。MEC随后可以从经验信息中学习效用函数的分布，并逐步改进动作选择。由于存在不确定性，无法保证始终选择导致最小效用 u∗(t)的最优动作。因此，每次选择一个动作 i时，其效用 ui(t)与最优效用 u∗(t)之间都存在一个非负的差距Δi，即

$$
Δi= ui(t)− u ∗ (t). \tag{13}
$$

将遗憾定义为各轮次间隙的总和，目标是尽可能实现较小的期望遗憾。为此，在P2的基础上，该问题也可被重新表述为

$$
\text{Regret}= \min_{{a(t)} T} \mathbb{E}\left[ \sum {t=1}^{T} (u_{a(t)}(t)− u ∗ (t))\right]. \tag{14}
$$

B. 一种经典的多臂赌博机算法

在每轮进行任务卸载决策之前，网络状态信息的不确定性导致每个任务卸载效用 u i( t)不可预测。自然地，我们可以考虑采用一种常用的多臂赌博机算法，即UCB1[36],，作为任务卸载决策的基线方案。

这种基于UCB1的算法包含两个阶段：探测阶段和运行阶段；参见算法1。

示意图1 平均效用（以及最优策略）； (b) 预期学习遗憾。)

学习过程的探测阶段（第1‐7行）仅在基站塔或移动边缘计算启动时，或当整个过程重新启动。首先，在前 K= 4 轮次（时隙）中，每个任务卸载动作各执行一次。每次做出决策后，根据每个多臂赌博机反馈观察到ua(t)(t)，并更新 si（即动作 i 被选择的次数）和平均效用u¯i。

在运行阶段的每一轮（第8‐15行）中，我们对每个决策动作 i估计综合效用成本ˆui(t)的乐观边界，该值等于截至该轮次的平均u¯i减去一个置信区间。然后我们选择具有最小ˆui(t)的任务卸载动作。做出决策后，观察到 ua(t)(t)，并更新 si和 u¯a(t)。

在计算乐观边界时有两个因素 ξ和 U。具体而言， ξ是用于调整对探索偏好的因子，即较大的 ξ倾向于更多的探索 [16]；而ξ= 2在UCB1情况下通常设为[36]。此外，已有研究证明，只要ξ> 0.5[37,定理2.2]，相应的遗憾就是次线性的。

此外， U是通过将每个 ui(t)在[0,1]内的幅度归一化来调整UCB1的另一个常数。直观上，它是ui(t)的最大值与最小值之间的差值。然而，由于我们无法预先知道所有 ui(t) ∀i ∈ K, ∀t ∈ T的值，因此无法直接计算该差值。通过分别用上确界和下确界替代最大值和最小值，我们将 U设为

$$
U= \sup_{\forall t,i} u_i(t)− \inf_{\forall t,i} u_i(t). \tag{15}
$$

已经证实，UCB1算法在 T[36]上实现了次线性遗憾界。这使得 UCB1及其变体成为多臂赌博机问题中一类常用且高效的方法。在现有文献中，遗憾界要么以实例无关形式 $O(\sqrt{KT \ln T})$[15]给出，要么以实例相关形式 $\sum_{i \neq a^*} O\left(\frac{T}{\Delta_i}\right)$ 或 $O\left(\frac{K \ln T}{\Delta_i}\right)$[36]给出，其中和如前所定义，参见()。已经证实，遗憾界的这两种形式是可互换的[15],[37]。因此，我们在本文其余部分重点关注与实例无关的形式。

C. 提出的算法

在(11)式中的综合效用成本ui(t)的三个组成部分中， df_i(t)可在每次卸载决策前确定地观测到， db_i(t)是不可预测的随机变量，而 P · 1{i=2,4}是依赖于 i取值的可预测变量。考虑到这些因素，我们提出了一种前传感知的UCB （FA‐UCB）任务卸载算法。尽管回程链路状态信息未知，该算法充分利用前传状态信息的即时可测性来降低不确定性。FA‐UCB算法还包含探测阶段和运行阶段；参见算法 2。

在探测阶段，依次尝试任务卸载动作。根据观察到的回传延迟 d_b_i(t)的值，更新动作 i被选择的次数 s_i 以及经验平均回传延迟 d¯_b_i(t)。注意， d_b_3(t)或 d_b_4(t)均等效于 MEC执行延迟 d_b_ec(t)。通过整合 d_b_3(t)和 d_b_4(t)的经验数据来学习 d_b_ec(t)的值分布。

由于 t= 5，每个前传延迟 d_f_i(t)可根据观测到的实时数据速率进行计算，而任何回程链路延迟是先验不确定的，只能进行边界估计，即通过ˆ d_i^b(t) 表示，其中包含直到该轮次的经验 d¯_i^b(t)减去一个置信半径。每个综合效用成本ˆui(t)的乐观边界则是 df_i(t)与ˆd_i^b(t)之和，此外仅当 i= 2,4时再加上 P，以计入通过5G前传接入产生的使用成本。选择具有最小ˆui(t)的卸载动作。随后在多臂赌博机反馈下观察到 db_a(t)(t)，并更新si、 d¯_i^b(t)以及 d¯_ebc(t)。

在FA‐UCB算法中，因子 ξ与基于UCB1的算法中的相同，且 d_i^b(t)的幅度 Db类似于定义为 U：

$$
Db:= \sup_{\forall t,i} d_i^b(t)− \inf_{\forall t,i} d_i^b(t). \tag{16}
$$

对于时变的 df_i(t)，最优动作 a∗(t)=argmini∈K ui(t) 并非始终随时间保持不变。因此，对UCB1的传统分析在此不可行。通过谨慎累积各轮次的间隙上界，我们在以下定理中建立了所提出的FA‐UCB算法的遗憾上界。

定理1 ：假设回程延迟 db_i(t)在时间上独立同分布，采用 ξ> 0.5的FA‐UCB算法的期望遗憾E[R(T)]是有上界的

$$
E[R(T)] ≤ O(\sqrt{T \ln T}). \tag{17}
$$

证明：见附录A。

遗憾界 $O(\sqrt{T \ln T})$关于 T显然是次线性的。所保证的次线性遗憾界意味着，随着时长增加，所提算法的平均遗憾可能趋近于零。换句话说，即使缺乏某些网络状态信息，所提出的FA‐UCB算法也能够实时学习并逼近最优的任务卸载决策。

注意，定理1指出，无论臂的效用成本如何，我们都可以通过限制 ξ> 0.5来防止线性遗憾。尽管(17)的遗憾界与UCB1算法在 T的同一数量级上，但它可以显著优于后者。我们将在下一小节中对其进行定性分析，并在第五节中进行定量验证。

D. UCB1 与 FA-UCB 的对比

与经典基于UCB1的算法相比，我们的FA‐UCB算法在以下几个方面是新的。

首先，由于前传延迟 d_f_i(t)随时间变化，最优任务卸载动作 u∗(t)的效用成本可能随时间变化。我们的FA‐UCB算法部分基于观测到的前传状态信息进行决策，从而降低了不确定性。通过在任务卸载决策之前利用更确定的状态信息，我们的FA‐UCB算法相比基于UCB1的算法能够做出更好的决策，从而导致更小的累积遗憾。

其次，对于 ∀i ∈ K , t ∈ T， d_b_i(t)的范围远小于 ui(t)的范围。因此，在我们的FA‐UCB策略中， D_b 远小于基于 UCB1的策略中的 U。文献[17] 中指出，仅需少量的探索即可帮助学习选择最优动作。在我们的算法中，较小的归一化常数在收敛性达到后，可减少因过度探索而产生的遗憾。

第三，注意在FA‐UCB算法中， d3b(t)和 d4b(t)的学习效率可以被共享并整合到 debc(t)的学习过程中。如果不整合这些信息，由于次线性学习遗憾，在早期轮次将探索更多的次优动作。因此，我们提出的算法比基于UCB1的策略能够更快地收敛。

第五节将通过数值结果展示所提出算法的优越性。

四、推广到非平稳多臂老虎机

在第三节中，假设回程延迟 $d_i^b(t)$ 是一个独立同分布变量，即 $\mathbb{E}[d_i^b(t)]$ 是时不变的。然而，这种平稳盗贼条件并不适用于更复杂的环境。在实际中，由于任意的时变回程状态和不可预测分配的资源，我们可能需要将回程延迟视为一个动态演化值。

A. 无静息鞅老虎机初步

为了限制通用强化学习问题所面临的动态演化过程的状态复杂度，我们做出以下三个假设。

假设1 （马尔可夫性质）: 给定最近轮次中的效用 $u_i(t - \tau)$，当前效用 $u_i(t)$ 与任何更早的效用条件独立；即对于 $i \in K$，

$$
P[u_i(t)|u_i(t - \tau),…, u_i(1)] = P[u_i(t)|u_i(t - \tau)], \tag{18}
$$

其中 $t = 2, 3, …, T$, $\tau = 1, 2, …, t - 1$。

假设2 （内生性无静息模型 [34],[35]）: 每个选项的效用状态 $u_i(t)$ 随轮次根据任意随机过程演化，且不受选择 $a(t)$ 的影响；即

$$
P[u_i(t)|u_i(t - 1), a(t)] = P[u_i(t)|u_i(t - 1)], \tag{19}
$$

其中 $t = 2, 3, …, T$, $i \in K$。

假设3 （Lipschitz连续性 [23],[25]）：存在某个用于控制任意两个轮次之间的效用差异

$$
|u_i(t) - u_i(t’)| \leq L|t - t’|, \tag{20}
$$

其中 $\forall t, t’ \in T$, $i \in K$。

接下来，我们将基于概率论中的一个概念——鞅，提出我们的restless鞅赌博机模型。

定义1 （鞅 [38]）：一个鞅是随机变量的序列 $X_n$，满足

$$
\mathbb{E}[X_n|X_1,…, X_{n-1}] = X_{n-1}, \quad \forall n \geq 1. \tag{21}
$$

每个赌博机臂$i$的动态演化过程 $d_i^b(t)$ 可被视为在轮次上的鞅：

$$
d_i^b(t) = d_i^b(t - 1) + \delta_i(t), \tag{22}
$$

其中 $\delta_i(t)$ 是一个零均值变量，并分别由$\inf \delta_i(t)$和$\sup \delta_i(t)$进行下界和上界有界。在本文中，我们固定 $\delta_i(t)$ 在不同臂上的取值范围（即其上确界与下确界之差）：

$$
\sup \delta_i(t) - \inf \delta_i(t) = A(t), \quad \forall i \in K, \tag{23}
$$

（例如，在服从具有时变边界的均匀分布的情况下，我们有 $\delta_i(t) \sim U[-A(t)/2, A(t)/2]$）。

将(22)视为单步递归更新，我们得到一个更一般的形式：

$$
d_i^b(t) = d_i^b(t - \tau) + \sum_{n=t-\tau+1}^{t} \delta_i(n). \tag{24}
$$

此外，存在 $L = \max |\delta_i(t)| > 0$ 使得

$$
|d_i^b(t) - d_i^b(t’)| = \left| \sum_{n=\min{t,t’}+1}^{\max{t,t’}} \delta_i(n) \right| \leq L|t - t’|. \tag{25}
$$

在这些限制条件下，鞅 $d_i^b(t)$ 显然符合假设1–3，这在一定程度上限制了问题复杂度。我们的鞅赌博机模型与[33]中的状态感知动态赌博机模型有些相似。在后者中，$\delta_i(t)$ 是随时间变化的独立同分布正态变量。我们提出的模型放宽了该限制，使得 $\delta_i(t)$ 的分布在只要满足零均值且在某个范围 $[\inf \delta_i(t),\sup \delta_i(t)]$ 内有界的情况下可以随时间变化。

B. 改进算法

与平稳环境相比，鞅环境更难学习。首先，效用序列的期望$d_i^b(t)$本质上是任意发散的，因此对历史效用成本值取平均无法得到用于预测的经验值。其次，在每一轮 $t$ 中，时变前传效用成本和动态演化的回传成本共同导致最优动作 $a^*(t)$ 呈现时变特性。基于非平稳鞅赌博机的特性，相应的任务卸载分配策略应旨在：i) 在探索与利用之间进行权衡；ii) 跟上任意演化过程。

为此，我们推广了在平稳赌博机中使用的FA‐UCB任务卸载算法。针对restless鞅（RM）的动态演化特性，我们提出了一种RM‐FA‐UCB算法；见算法3。

考虑到序列${d_i^b(t)}$的马尔可夫性质，通过平均历史值来估计经验值是不合适的。相反，我们仅选取其最近观测轮次中的效用值。定义迭代变量 $t_0^{wf}$, $t_0^{5G}$，或 $t_0^{ec}$ 为各自回传选项被选中时的最后轮次索引，我们令

$$
t_0^i = \begin{cases}
t_0^{wf}, & i=1 \
t_0^{5G}, & i=2 \
t_0^{ec}, & i=3,4
\end{cases} \tag{26}
$$

由(24)可得：

$$
\mathbb{E}[d_i^b(t)|d_i^b(t_0^i)] = d_i^b(t_0^i) \tag{27}
$$

由于(22)和(24)，根据Azuma-Hoeffding不等式，以压倒性概率我们有相当

示意图2

比(25)更紧的界：

$$
P\left[|d_i^b(t) - d_i^b(t_0^i)| \leq \sqrt{\sum_{n=t_0^i+1}^{t} [A(n)]^2 \xi \ln t} \,\bigg|\, d_i^b(t_0^i)\right] \geq 1 - 2t^{-2\xi}. \tag{28}
$$

这意味着当$d_i^b(t_0^i)$ 已知并被视为估计 $d_i^b(t)$ 的经验均值时，所估计的回程延迟的置信半径为 $\sqrt{\sum_{n=t_0^i+1}^{t} [A(n)]^2 \xi \ln t}$。

RM‐FA‐UCB的基本结构与FA‐UCB相似，包含一个探测阶段（第1‐6行）和一个运行阶段（第7‐19行）。核心修改在于估计的乐观边界$\hat{d}_i^b(t)$的计算（第12行），具体表述如下：

在前一项（利用）中，经验效用 $\bar{d} {wf}(t)$、$\bar{d} {5G}(t)$ 或 $\bar{d} {ec}(t)$ 被分配或更新为其最近轮次中相应回传选项的效用值，即分别为 $d {wf}(t_0^{wf})$、$d_{5G}(t_0^{5G})$ 或 $d_{ec}(t_0^{ec})$。

在后一项（探索）中，随着相应的 $\tau_i(t)$ 增加，定义的置信半径会逐渐扩大。

因此，$\tau_i(t)$ 越大，选项 $i$ 所需的探索越多。

注意，由于过程 $d_3^b(t)$ 和 $d_4^b(t)$ 在本质上是等效的，我们在算法3中将它们统一为 $d_{ec}(t)$。在探测阶段，$d_{ec}(t)$ 的值仅尝试一次，从而避免了冗余探索。

C. 遗憾分析

我们的RM‐FA‐UCB算法通过以下方式应对先验不确定性及发散演化：

首先，它继承了FA‐UCB算法的创新。通过利用前额状态信息，减少了不确定性的范围，避免了过度探索，并改善了累积遗憾。同时，类似于算法2，$d_3^b(t)$ 和 $d_4^b(t)$ 均被统一为 $d_{ec}(t)$，从而在一定程度上有助于提高学习收敛性。

其次，它实现了探索与利用之间的权衡。定义 $\bar{u} i(t) = df_i(t) + \bar{d}_i^b(t) + P \cdot \mathbf{1} {{i=2,4}}$，我们可以直观地看到第15行

$$
\hat{u} i(t) = \bar{u}_i(t) - \sqrt{\sum {n=t_0^i+1}^{t} [A(n)]^2 \xi \ln t}. \tag{29}
$$

根据第17行的准则，如果满足以下任一条件，则某个卸载动作 $i$ 更有可能被选中：i) $\bar{u}_i(t)$ 较低，即利用具有最佳经验值的选项；或ii) $\tau_i(t)$ 较大，即探索长时间未被选择的选项。这种权衡提供了有保障的性能。

第三，它能够跟上非平稳鞅演化。基于马尔可夫性质，在最近一次观测条件下，效用的期望值与演化过程中早期记录无关。相反，过时观测可能会误导估计。在 RM‐FA‐UCB算法中，每次选择一个回传选项时，都会更新 $\bar{d} i^b(t)$ 和 $t_0^i$ 的值。在下一轮中，对应的 $\tau_i(t)$ 值将重置为1，从而使得 $\sqrt{\sum {n=t_0^i+1}^{t} [A(n)]^2 \xi \ln t}$ 再次变窄。这防止了每个置信半径变得过宽，从而形成一种适当的选择策略来追踪时变最优动作。

与独立同分布赌博机相比，restless鞅模型本质上是一种更具发散性的演化过程。在无学习的任务卸载策略（例如随机策略）中，$T$ 上的累积遗憾界无法形成次线性曲线。相比之下，基于学习的算法RM‐FA‐UCB改进了遗憾界，如下述定理所述。

定理2 ：当回程延迟遵循非平稳鞅过程时，RM‐FA‐UCB算法在 $\xi > 1$ 下的期望遗憾有上界：

$$
\mathbb{E}[R(T)] \leq O(\sqrt{Q_T T \ln T}). \tag{30}
$$

where $Q_T = \sum_{t=2}^{T} [A(t)]^2$.

Proof : See Appendix B.

此外，假设 $Q_T = O(T^\eta)$ 对于 $\eta \in [0, 1]$ 成立，即 $Q_T = o(T)$，我们得到平均遗憾界：

$$
\lim_{T \to \infty} \frac{1}{T} \mathbb{E}[R(T)] \leq \lim_{T \to \infty} O\left(\sqrt{\frac{\ln T}{T^{1-\eta}}}\right) = 0. \tag{31}
$$

消失的平均遗憾意味着随着 $T$ 的增加，RM‐FA‐UCB算法是渐近最优的。特别是当$Q_T$与 $T$ 无关时（即 $\eta = 0$），式(30)中的遗憾界显然是关于 $T$ 次线性的，这在理论上保证了其性能显著优于任何无学习策略。

V. 数值测试

在本节中，我们提供数值结果以评估所提出的策略。在接下来的子章节中，我们假设每个任务的输入大小和计算强度是固定的，分别为 $x_0 = 1$ Mbit 和 $\lambda_0 = 10^3$ cycles/bit，分别对应[17]。根据标准大致设定 $r_{wf}(t) \in [20, 40]$ Mbps，$r_{5G}(t) = 50$ Mbps，以及 $f_{ec}(t) \in [5, 10]$ GHz，我们得到 $df_{wf}(t) \in [25, 50]$ms，$df_{5G}(t) = 20$ ms，以及 $d_{ec}(t) \in [100, 200]$ ms，分别对应6。粗略地，我们设定 $d_{wf}(t) \in [100, 300]$ ms 和 $d_{5G}(t) \in [150, 350]$ms。

A. 平稳赌博机条件

在平稳赌博机设置下，$d_{wf}(t)$、$d_{5G}(t)$ 和 $d_{ec}(t)$ 在各轮次中未知且独立同分布。通过将三个调谐因子设为 $D_b = 200$、$\xi = 0.51$ 和 $P = 29$，我们进行了 $T = 1000$ 轮次的仿真。

为了评估我们的FA‐UCB算法，我们将其与两种常用策略进行比较：i）一种朴素随机策略，该策略通过随机选择卸载方式进行决策；ii）UCB1策略，该策略忽略了前传数据速率的即时可测性以及每个 $df_i(t)$ 的可计算性。此外，还引入了预言最优策略作为最优基准，该策略在已知完整先验网络信息的情况下，每轮次选择期望效用成本最低的卸载动作，尽管在实际中无法实现。

图2(a)展示了每种任务卸载策略的期望平均效用成本。在所有测试的策略中，朴素随机策略的平均效用成本表现最差，而我们的FA‐UCB算法相比其他两种策略收敛更快，且性能最接近最优基准。

在图2(b)中，我们比较了不同算法的期望学习遗憾。结果表明，由于缺乏学习能力，朴素随机策略随时间产生线性遗憾。而基于UCB1的策略或我们的FA‐UCB算法通过探索与利用实现了随时间的次线性遗憾。我们的 FA‐UCB算法产生的遗憾最小，分别比基于UCB1的算法和朴素随机策略降低了75%和95%。

然后我们评估 $\xi$ 的值如何影响学习遗憾。定理1表明我们不应选择 $\xi \leq 0.5$。

示意图3

如图3所示，对于每个特定 $\xi$ 值的曲线，遗憾随时间呈次线性增长。我们的仿真结果表明，在 $\xi > 0.5$ 的试验值中，较小的 $\xi$ 会带来更好的性能。这一趋势在 $\xi > 0.5$ 下的[18, 图 3]中同样成立。原因是，仅需少量探索即可，而大多数探索是过度的。因此，当 $\xi$ 较大时，FA‐UCB算法随着时间推移倾向于进行更多的过度探索，从而累积更大的遗憾。

最后，我们分析了 $P$ 对卸载决策偏好的影响。我们尝试了一系列的 $P$ 值，并观察了任务通过Wi‐Fi或5G卸载时相应的轮次数。在图4中，当 $P = 0$ 时，FA‐UCB算法不考虑流量成本，仅涉及卸载延迟因素，因此由于第五代移动通信技术具备低延迟的优势，5G卸载占据了全部流量。这种压倒性偏好也体现在较小的 $P$（≤ 5）情况下。随着 $P$ 进一步增加，尽管5G的成本呈线性增长，Wi‐Fi卸载变得越来越具有吸引力。最终，当$P$大于某个值（例如 $P > 30$）时，压倒性偏好转向Wi‐Fi卸载。

B. 无静止鞅型 Bandit 条件

在本小节中，我们通过将动态演化过程 $d_{wf}(t)$、$d_{5G}(t)$ 和 $d_{ec}(t)$ 建模为随时间变化的鞅来表示动态赌博机条件。根据定理2，$Q_T$ 应关于 $T$ 呈次线性，以确保平均遗憾趋于消失的可能性。为此，我们在第 $t$ 轮次中使用指数序列 $A(t) = 50 \times 0.99^t$ 对 $\delta_i(t)$ 的取值范围进行约束。同时，为了防止效用成本不切实际地发散，我们修改式(22)，将每个 $d_i^b(t)$ 限制在范围$[C_i, D_i]$内：

$$
d_i^b(t) = \begin{cases}
C_i, & d_i^b(t - 1) + \delta(t - 1) < C_i \
D_i, & d_i^b(t - 1) + \delta(t - 1) > D_i \
d_i^b(t - 1) + \delta(t - 1), & \text{otherwise}
\end{cases} \tag{32}
$$

其中 $d_i^b(t)$ 的范围与平稳盗贼条件中的范围相同。

大多数参数和因素与上一小节相同。我们设置了 RM‐FA‐UCB算法中的因子 $\xi = 1.01$。需要注意的是，非平稳鞅赌博机条件比平稳条件更加发散。我们对100次独立运行的结果进行了平均。

为了评估RM‐FA‐UCB算法的性能，我们还提供了两种用于比较的策略：i）上一节中提到的朴素随机策略；ii）一种贪婪方法[33,第4节1],，该方法对每个动作探测一次，选择观测效用成本最佳的动作执行若干 $m - K$ 轮次 $m$，并每隔一定轮次重启一次。此外，还给出了离线最优策略作为基准。

图5(a)展示了在动态赌博机条件下每种任务卸载策略的平均效用成本。在所有测试方案中，由于缺乏探索与利用的权衡，朴素随机策略在平均效用成本方面的表现最差。我们的RM‐FA‐UCB算法的表现最接近最优基准。原因在于该算法能够跟上环境的演化过程，并在探索与利用之间进行动态权衡。

注意到随机策略的遗憾极大，我们在图5(a)中仅展示了 RM‐FA‐UCB算法和贪婪算法（在不同 $m$ 取值下）的期望遗憾。我们的RM‐FA‐UCB算法实现了随时间增长的次线性遗憾，并且随着时间的推移，其遗憾最小。当贪婪算法采用 $m = 10$ 时，会导致过多的重新探索；而采用 $m = 1000$ 时，则无法紧跟演化的老虎机；在 $m = 100$ 时，其遗憾非常接近我们的RM‐FA‐UCB算法。然而，从理论上调节 $m$ 非常复杂，在实践中也难以在有限条件下找到最优值。

平均效用（连同最优策略）；(b) 预期学习遗憾。)

知识。显然，我们的RM‐FA‐UCB更加方便和实用。

C. 任务卸载方案的比较

为了评估所提出的边缘为中心的方案，我们在平稳赌博机设置下将其性能与传统的网络中心化和用户中心化的方案进行比较。对于网络中心化方案，我们考虑一种完整状态任务卸载（CSTO）策略[17]。具体而言，中心云获取所有状态信息，评估相应的延迟，并选择效用成本最小的卸载选项。对于用户为中心的方案，我们假设 $N$ 用户基于UCB1算法相继且独立地做出任务卸载决策，因为前传信息在用户端并不总是可用的。此外，还提供了离线最优策略作为基准。

大多数仿真参数和调优因子的设置与第五节A部分相同。对于网络中心化方案，我们为每一轮设置额外的回传探测开销，时长为常数（25毫秒），以惩罚其获取全局网络状态信息的成本。对于用户为中心的方案，我们设置用户数量为 $N = 5$。仿真进行 $T = 1000$ 轮次。

图6(a)展示了不同任务卸载方案的平均效用成本。网络中心化方案始终能够做出（离线）最优决策；然而，额外的回程链路探测开销会带来附加的效用成本。与网络中心化方案相比，由于频繁选择次优动作，边缘中心化方案在早期轮次的平均效用成本较高。在收敛之后，最优动作以较大概率被选择，所提出的方案

平均效用（包含最优策略）；(b) 预期学习遗憾。)

在网络中心化方案相比，边缘中心化的方案表现更优。需要注意的是，网络中心化方案的计算复杂度也远高于我们的边缘中心化方案。另一方面，由于采用独立学习策略，用户中心化的卸载决策始终次优。

在图6(a)中，我们比较了不同方案的期望学习遗憾。需要注意的是，此处的网络中心化方案将每轮次的回传探测开销转换为遗憾，从而产生线性遗憾。另外两种方案则产生次线性遗憾。可以看出，我们提出的边缘为中心的方案的遗憾最小，分别比用户中心和网络中心化方案降低了87%和90%。

VI. 结论

我们提出了一种新颖的以边缘为中心的任务卸载方案，用于多无线接入技术异构网络（multi‐RAT HetNet），其中共存着一种保证服务质量的无线接入技术（即第五代移动通信技术）和一种低成本低功耗的无线技术（即Wi‐Fi）。基于移动边缘计算的架构，我们开发了一种新颖的FA‐UCB算法用于任务卸载。利用多臂老虎机框架，所提出的算法能够在网络状态信息存在不确定性与非对称性的情况下实现服务质量与成本的权衡。特别地，我们严格证明了在回程延迟时间上独立同分布的条件下，所提出的FA‐UCB算法相对于离线最优基准具有次线性遗憾界。在非平稳鞅赌博机条件下，我们还提出了广义RM‐FA‐UCB算法，该算法即使在非平稳网络动态下也能实现次线性遗憾界。