EdgeSlice：去中心化DRL网络切片-优快云博客

EdgeSlice：基于去中心化深度强化学习的无线边缘计算网络切片

摘要

第五代移动通信技术（5G）和边缘计算将服务于各种具有多样化资源需求的新兴用例，例如无线、传输和计算资源。网络切片是一种有前景的技术，可用于创建可根据不同用例需求定制的虚拟网络。网络切片的部署需要端到端资源编排，这是一项具有挑战性的任务。本文设计了一种名为 EdgeSlice 的去中心化资源编排系统，用于动态的端到端网络切片。EdgeSlice 引入了一种新的去中心化深度强化学习（D‐DRL）方法，以高效地编排端到端资源。D‐DRL 由一个性能协调器和多个编排代理组成。性能协调器管理所有编排代理中的资源编排策略，以确保网络切片的服务等级协议（SLA）。编排代理学习网络切片的资源需求，并据此编排资源分配，在受限的网络和计算资源条件下优化切片性能。我们设计了无线、传输和计算管理器，以实现运行时对端到端资源的动态配置。

我们在一个包含 OpenAirInterface LTE 网络、OpenDayLight 软件定义网络交换机和 CUDA GPU 平台的端到端无线边缘计算网络原型上实现了 EdgeSlice。通过实验和基于跟踪的仿真对 EdgeSlice 的性能进行了评估。评估结果表明，与基线方案相比，EdgeSlice 在性能、可扩展性和兼容性方面均有显著提升。

索引术语

资源编排，深度强化学习，网络切片，无线边缘计算

一、引言

新兴用例和异构服务，例如物联网（IoT）、增强现实/虚拟现实（AR/VR）、车联网（V2X）和移动人工智能，推动了第五代移动通信技术（5G）移动网络的发展与研究[1]。与传统服务不同，这些新服务在带宽、延迟和可靠性等方面具有高度差异化的性能要求，这给 5G 在网络的可扩展性、可用性和成本效益方面带来了挑战，以适应这些服务[2]。

利用软件定义网络（SDN）和网络功能虚拟化（NFV），网络切片是一种有前景的技术，可应对这一挑战[3]。它允许多个逻辑网络，即网络切片，在同一物理网络基础设施上运行[4]。网络切片可以单独定制，以满足不同网络服务和应用场景的各种性能需求。例如，可以定制一个切片来承载需要大量连接但低数据速率的物联网服务。同时，

示意图0

另一个切片可被实例化以支持延迟敏感型服务，例如移动增强现实和车联网通信。因此，网络切片创造了新的网络管理和运营模式，并在收益、服务质量和服务自主性方面提升了网络运营商和服务提供商的网络性能。

网络运营商需要为网络切片[5]提供性能和功能隔离。性能隔离确保一个网络切片的性能不受其他网络切片运行的影响。功能隔离允许切片租户自定义其切片的功能和资源管理[6]。然而，网络切片之间的隔离会降低复用效率，从而影响系统性能[7]。研究表明，在较小的时间尺度上共享网络资源可以提高复用效率[7]。这一发现支持动态网络切片，即根据网络切片的实际需求动态调整资源分配。

如图1所示，动态网络切片面临两个研究挑战。首先，几乎无法获得网络切片资源与其性能之间的确切关联。一个网络切片通常需要来自多个技术领域的资源，例如无线接入网、传输网络和边缘/云。这些资源与切片性能之间存在非常复杂的权衡关系。例如，无线接入网络中的较短延迟可以通过边缘/云服务器中的加速计算来补偿。因此，目前缺乏能够建模资源与切片性能之间关联的闭式数学表达式

234
2020年IEEE第40届国际分布式计算系统会议（ICDCS）
2575‐8411/20/$31.00 ©2020 IEEE DOI 10.1109/ICDCS47774.2020.00028
2 0 2 0 IE E E 4 0t h In te rn at io na l C on fe re nc e on D ist rib ut ed C om pu tin g S ys tem s( IC DC S) | 97 8-1 -72 81 -70 02 -2/ 20 /$3 1.0 0 © 20 20 IE EE | DO I: 1 0.1 109 /IC DC S47 774 .20 20.
000 28
授权许可使用仅限于：东卡罗来纳大学。下载于2021年6月29日 UTC 09:36:44，来源为 IEEE Xplore。适用限制条款。
本文档由 funstory.ai 的开源 PDF 翻译库 BabelDOC v0.5.10 (http://yadt.io) 翻译，本仓库正在积极的建设当中，欢迎 star 和关注。
网络切片性能。现有的多资源分配研究通常假设多种资源按照一定比例进行分配，例如1单位无线电频谱：2单位计算资源，这种方式效率不高[8],[9]。第二个挑战是移动流量的空间多样性要求网络切片的资源在不同地理位置的基站和边缘/云服务器之间合理分布，这进一步加剧了动态网络切片问题的复杂性。

在本文中，我们设计了 EdgeSlice，一种去中心化资源编排系统，用于在无线边缘计算网络中自动化动态端到端网络切片。EdgeSlice 引入了一种新颖的去中心化深度强化学习（D‐DRL）方法，以高效地编排端到端网络和计算资源。通过 D‐DRL 方法，资源编排由中央性能协调器和多个去中心化编排代理共同完成。编排代理依赖深度强化学习（DRL）来学习最优的资源编排策略，而中央性能协调器则协调各代理之间的资源编排，以确保网络切片的服务等级协议（SLA）。为实现 EdgeSlice，我们还开发了新的无线、传输和计算资源管理器，能够根据资源编排动作在运行时管理资源，并实例化网络切片。

本文的贡献总结如下：我们设计并实现了 EdgeSlice，这是一种用于无线边缘计算网络中动态网络切片的去中心化资源编排系统。
EdgeSlice 利用一种新型的去中心化深度强化学习（ D‐DRL）方法，实现动态网络切片的自动化。
•我们设计了一种新的去中心化深度强化学习（D‐DRL）方法，以高效地自动化端到端资源编排。该 D‐DRL 方法由一个性能协调器和多个编排代理组成。编排代理能够在性能协调器的协调下学习最优的资源编排策略。
我们开发了无线、传输和计算管理器，并将其集成到现有平台中：无线接入网中的 OpenAir‐Interface（OAI）、传输网络中的 OpenDay‐Light（ODL）以及边缘/云服务器中的 CUDA GPU。这些管理器能够在 EdgeSlice 系统中实现端到端资源的动态配置和运行时调整。
我们构建了一个实验原型并实现了 EdgeSlice 系统。通过使用该原型系统的实验以及基于轨迹驱动的网络仿真，我们评估了 EdgeSlice 系统的性能。

II. EdgeSlice 概述

EdgeSlice 通过去中心化的深度强化学习，在无线边缘计算网络中实现动态网络切片的自动化。图2展示了 EdgeSlice 系统的架构设计。为了实现网络切片过程的自动化，EdgeSlice 利用了机器学习方法，即深度强化学习。

实体	符号	实体	符号
网络切片	i	资源自治（RA）	j
网络资源	k	时间间隔	t
切片队列长度	l	时间段	T
切片性能	U	资源编排	x
最小性能	Umin	总资源	Rtot
辅助变量	z	对偶变量	y

表I：第三节中的符号说明 学习网络切片的端到端资源需求，并相应地编排资源分配给网络切片。由于切片流量的时空动态性以及网络切片性能与资源编排之间复杂的权衡关系，使用集中式学习代理来协调网络切片的资源分配是低效的。此外，集中式学习代理需要从所有网络节点获取网络性能数据，这会引入过高的通信开销和延迟。为此，EdgeSlice 提出了一种新的去中心化的深度强化学习方法，用于无线边缘计算网络中的网络切片。

我们将资源自治（RA）定义为地理区域中的一组网络基础设施，例如基站和边缘服务器，因此网络可以被划分为多个资源域。每个资源域中设计了一种基于深度强化学习的编排代理，用于管理多域资源，并在短时间尺度（例如秒级）上运行，以实现动态网络切片。该编排代理（详见第IV‐B节）能够跟踪网络状态（队列长度、流量），从经验中学习资源编排策略，并自主地将资源编排给各个切片。

设计了一个集中式性能协调器，用于协调所有资源域中的资源编排，并在更长时间尺度上优化网络性能。同时，性能协调器确保与资源编排相关的所有约束（如 SLA 和服务系统容量）得到满足（详见第IV‐A节）。性能协调器仅与编排代理交换少量的协调信息，从而显著降低了通信开销。

为实现 EdgeSlice，开发了资源管理器（即中间件），以根据编排代理做出的资源编排决策（详见第V节），在运行时管理无线接入网、传输网络和边缘计算服务器中的资源。

III. 系统模型与问题描述

为了设计 EdgeSlice 系统，我们首先对无线边缘计算网络进行数学建模，并形式化端到端资源编排问题的描述。

A. 系统模型

我们考虑一个端到端的无线边缘计算网络，该网络由包含多个基站（BSs）的无线接入网（RAN）、边缘/云计算服务器以及连接无线接入网和计算服务器的传输网络组成。如图1所示，在每个无线接入区域（RA）中，存在多个请求端到端资源的网络切片。

235
授权使用的范围限于：东卡罗来纳大学。下载时间：2021年6月29日 09:36:44 UTC，来源：IEEE Xplore。适用限制条款。

示意图1

以实现无缝服务覆盖并支持其用户的移动性。在每个无线接入区域中，网络切片拥有用于缓冲其切片用户到达流量的服务队列。我们假设网络是时隙化的，网络运营商可以观察网络切片的性能1 ，并以最小 t 时间间隔动态调整其资源编排。
设 I、 J 和 K 分别为网络切片、无线接入区域和网络资源的集合。记 x(t) i ,j =[x(t) i,j,k|∀k ∈ K]，其中 x(t) i ,j,k 为分配给第 i 个切片在第 j 个 RA 上的第 k 个分配的资源，U(t) i ,j 为网络切片的性能。

B. 问题陈述

网络切片的目标是最大化系统中网络切片性能，该目标可表示为 max{x (t) i, j } lim τ→∞ 1 τ ∑ t=0 τ ∑ i∈I ∑ j∈J U(t) i ,j 。由于 τ → ∞，该问题是一个无限时间范围的随机规划问题。
解决该问题的一般方法是将其转化为有限时间段 T 内的问题，例如一天[10],[11]。因此，资源编排问题被表述为
P0: max {xi, j ≥0} ∑ t∈T ∑ i∈I ∑ j∈J U (t) i ,j s.t. (2),(3). (1)

在网络切片背景下，资源编排问题受到两个实际约束的限制。第一个约束是网络切片的网络范围性能应满足切片租户与网络运营商之间达成的服务等级协议（SLA）。
记 Umin i 为根据 SLA 确定的第 i 个切片的最低性能要求。因此，性能约束可表示为
∑t ∈ T∑j ∈ J U (t) i, j ≥ U min i , ∀i ∈ I. (2)

第二个约束是每个无线接入区域中的资源是有限的。
记 R tot j =[r tot j ,k |∀k ∈ K] 为第 j 个无线接入区域中每种资源的总量。那么，分配给第 j 个无线接入区域中网络切片的资源应小于 R tot j ，该约束可表示为
∑i∈I x(t) i,j ≤ Rtot j, ∀j ∈ J, t ∈ T. (3)

求解问题 P0 的困难体现在两个方面。首先，该问题涉及在每个 RA 内的网络切片端到端资源编排，以及所有 RAs 之间的性能协调，以维持网络切片的网络范围性能。
无线接入网内与跨资源域的资源管理之间的耦合使问题变得极为复杂。其次，由于网络动态变化以及网络切片资源需求的多样性，切片性能成为一种复杂的随机函数。在实际系统中，几乎不可能为这种关联建立精确的数学模型 [12]。此外，网络切片系统中的资源编排表现出服务切片用户时的马尔可夫性，即资源编排策略不仅影响当前网络状态，还会影响未来的网络状态，例如服务队列。

IV. 边缘切片设计：协调器与代理

在本节中，我们介绍了 EdgeSlice 系统中性能协调器和编排代理的设计。

A. 性能协调器

由于网络切片的性能依赖于多个无线接入区域中的资源编排，因此设计了中心性能协调器来协调各资源域之间的资源编排，从而优化网络切片的性能。为了设计该性能协调器，我们通过引入辅助变量 Z={zi, j , ∀i ∈ I, j ∈ J} 对问题 P 0 进行变换
z i, j =∑t ∈ T U (t) i, j , ∀i ∈ I, j ∈ J. (4)
然后，约束(2)等价于
∑ j ∈ J z i, j ≥ U min i , ∀i ∈ I. (5)
因此，问题 P 0 被等价转换为
P 1 : max {xi, j ≥ 0 ,z i, j } ∑ t ∈ T ∑ i ∈ I ∑ j ∈ J U (t) i, j s.t. (3),(4),(5). (6)

问题 P1 包含两组变量， X 和 Z ，它们通过约束(4)耦合。接下来，我们推导问题 P 1 的增广拉格朗日函数
236
授权许可使用限制：东卡罗来纳大学。于2021年6月29日由IEEE Xplore下载。受限使用。
Ly=∑ i∈I ∑ t∈T U(t) i,j − ρ 2‖∑ t∈T U(t) i,j − zi,j+ yi,j‖ 2 (7 其中 ρ ≥ 0 是一个正数常量， Y={yi,j, ∀i ∈I, j ∈ J} 是缩放的对偶变量。此处，增广拉格朗日函数包含了耦合变量 Z 和 X 的约束(4)。

根据乘子交替方向法（ADMM）[13],，问题 P1 通过迭代求解以下问题来解决：
xi,j= arg max xi,j∈(3) Ly(xi,j, zi,j, yi,j), (8)
zi,j= arg max zi,j∈(5) Ly(xi,j, zi,j, yi,j), (9)
yi,j= yi,j+(∑t∈T U(t) i,j − zi,j), (10)

其中，公式8中的问题侧重于资源编排。公式10和公式9中的问题分别更新辅助变量和对偶变量，这需要系统中的所有资源编排。

因此，我们设计了性能协调器，基于系统中编排代理收集的资源协调和切片性能信息，来求解公式9和公式10 中的问题。由于 X 和 Z 已获得，公式9中的问题等价于
P2: min {zi, j} ∑ i∈I ∑ j∈J ‖∑ t∈T U (t) i,j − zi,j+ yi,j‖ 2 2 s.t. (5). (11)
该问题是一个标准的二次规划问题，可以使用凸优化工具（例如 CVX [14]）求解。通过求解该问题，性能协调器获得辅助变量 Z ，然后根据公式10更新对偶变量 Y。我们将辅助变量 Z 和对偶变量 Y 定义为性能协调器与编排代理之间的协调信息。

B. 编排代理

编排代理旨在性能协调器的监督下，为网络切片编排端到端资源，即求解公式8中的问题。由于该问题的约束仅限制无线接入区域内的资源编排，因此可以在每个无线接入区域内独立求解，即去中心化。因此，我们将公式8 在第 j 个 RA 内的问题重写为
P 3 : max {xi, j ≥ 0} ∑ i ∈ I ∑ t ∈ T U (t) i, j − ρ 2∑ i ∈ I ‖∑ t ∈ T U (t) i, j − z i, j + yi, j ‖ 2 2 s.t. (3). (12)

解决上述问题的主要挑战在于，由于网络动态变化以及网络切片端到端资源需求的复杂性，切片性能非常复杂，且不存在闭式数学模型。此外，当前的资源编排会影响服务队列中的切片用户以及后续的网络状态。为应对这一挑战，我们采用深度强化学习（DRL）技术，使编排代理在设计时能够实现无模型机器学习我[15]。考虑一种通用的强化学习场景，其中智能体在离散决策时段内与环境进行交互。在每个决策时刻 t，智能体观察到一个状态 st，根据其策略 μ(s) 采取一个动作 at（例如资源编排），并获得奖励 r(st, at)。随后，环境根据智能体所采取的动作转移到下一个状态 st+1（例如队列状态变化）。目标是找到最优策略 μ∗(s)，将状态映射到动作，以最大化折扣后的累积奖励 ∑∞ t=0 γ tr(st, at)。其中， γ ∈[0, 1 为折扣因子。

尽管深度强化学习技术已在机器人控制[16],、交通控制[17], 和棋类游戏[18], 等多个领域得到广泛研究，但现有的深度强化学习模型由于以下两个原因并不适用于求解问题 P3。首先，大多数深度强化学习模型旨在解决无约束问题[17],[19]，而该问题包含多个线性约束。其次，现有深度强化学习模型无法根据来自外部控制[20] 的协调信息调整其策略。然而，为了维持网络切片的全局性能， EdgeSlice 中的智能体需要根据协调器提供的协调信息来编排资源。

1) 智能体设计：

因此，我们设计了一种新的深度强化学习模型，该模型具有定制的状态空间、动作空间和奖励函数。
在该深度强化学习模型中，约束条件（3）被重新加权并融入其奖励函数中，从而使奖励受到约束是否满足的影响。协调信息被扩充到状态空间中，以允许来自协调器的外部控制。

状态空间 ：状态由两部分拼接而成。第一部分是 [l( t) j , ∀i ∈ I]，表示当前网络状态，即网络切片的队列状态。第二部分是 [zi,j −yi,j , ∀i ∈ I]，为来自协调器的协调信息。因此，在第 j 个无线接入区域于时间间隔 t 的状态可以表示为
s t=[l( t) j , zi, j − yi, j , ∀i ∈ I]. (13)

动作空间 ：在 t 时间间隔 t 的动作定义为在无线接入区域中对网络切片的资源分配：
a t =[x (t) i, j , ∀i ∈ I]. (14)

奖励：在 t 时间间隔 t 的奖励定义为
r(st ,at) =∑ i ∈ I(U (t) i, j − ρ 2 ‖U (t) i, j − 1 T (zi, j + yi, j) ‖ 2 −β∑j ∈ J[∑i ∈ I x (t) i, j − R tot j] +,
其中 [x] + = max(0, x)，且 β 为一个正数常量。此处，我们通过对时间域中相同的子目标函数进行近似来逼近问题 P 3 的目标函数。此外，我们通过奖励塑形技术[21] 将约束(3)纳入子目标函数中。因此，若违反约束，则会在奖励中加入惩罚。

237
授权许可使用仅限于：东卡罗来纳大学。于2021年6月29日09:36:44 UTC从IEEE Xplore下载。限制适用。

![图3](目标网络ሺ𝜃𝜇′ሻ 演员网络（𝜃𝜇）优化器目标网络ሺ𝜃𝜋′ሻ 评论家网络（𝜃𝜋）软更新优化器 Actor Critic 目标值经验回放缓存 𝑠𝑡,𝑎𝑡,𝑟𝑡,𝑠𝑡+1 动作软更新目标值 ሻ 𝒂=𝝁ሺ𝒔|𝜃𝜇 ൯ 𝜇′ሺ𝒔|𝜃𝜇′）

2) 智能体的训练：

我们采用深度确定性策略梯度（ DDPG），这是一种先进的强化学习技术，能够处理连续且高维的动作空间[15], ，用于训练我们的编排代理。如图3所示，DDPG 融合了深度 Q 网络（DQN）[16] 和演员‐评论家方法[22],，并维护一个参数化演员 μ(st|θ μ) 和一个参数化评论家 π(st, at|θ π)。评论家用于估计状态‐动作对的值函数，而演员通过将状态映射到特定动作来确定当前策略。

评论家使用 DQN 实现。我们定义值函数 Qπ(st, at) 为：智能体在决策时刻 t 从状态‐动作对 (st,at) 开始，并根据策略 π 行动时，所获得的期望折扣累积奖励。该值函数可表示为 Qπ(st,at) = Eπ[Rt]，其中 Rt= ∑ T k=t γ (k−t)r(sk, ak)。
基于贝尔曼方程[23], ，最优值函数为 Q ∗(st,at) =r(st, at) + γ max a t+1 Q ∗(st+1, at+1)。

为了获得最优策略，通过最小化均方贝尔曼误差（MSBE）来训练 DQN
L(θπ)= E[(gt − Q(st,at|θ π)) 2], (16)
其中 θπ 是评论家网络的参数， D 是经验回放记忆。 gt 是由目标网络估计的目标值，可表示为
gt= r(st, a t)+ γ maxat +1 Q(st+1, μ(st+1|θμ ′ )|θ π ′ ),(17)
其中 θπ ′ 是目标网络的参数。目标网络与评论家网络具有相同的架构，其参数 θπ ′ 会缓慢更新以跟踪评论家网络的参数。

演员网络使用另一个 DQN 实现，该 DQN 学习一个确定性策略 μ(st |θ μ ) 以最大化演员的累积奖励，即 J= E μ[Rt]。由于动作空间是连续的，因此假设值函数相对于动作为可微的。因此，可以通过将链式法则应用于关于演员参数 θ μ 的期望累积奖励来训练演员网络：
∇ θ μ J ≈ E[∇θ μQ(s,a|θ π )|s = s t ,a = μ(s t | θ μ )] (18) = E[∇aQ(s,a|θ π )|s = s t ,a = μ(s t ) · ∇θ μ μ(s|θ μ )|s = s t] .

C. EdgeSlice 的工作流程

EdgeSlice 系统的流程总结在算法1中。资源编排首先初始化协调信息，即 Z 和 Y。编排

算法1：EdgeSlice 资源编排
Umin i, ∀i ∈ I; Rtot j, ∀i ∈ I; ρ, β X, Z, Y
1 初始化 Z 和 Y；
2 当循环为真时执行
3 / ∗ ∗ optimize X in each agent ∗ ∗/；
4 for j ∈ J(decentralized) do
5 x(t) i ,j, ∀i ∈ I, t ∈ T ← 第 i 个编排代理；
6 U(t) i ,j, ∀i ∈ I, t ∈ T ← 第 i 个切片性能；
7 / ∗ ∗ update Z in the coordinator ∗ ∗/;
8 zi,j ←arg max zi,j∈(5) Ly(xi,j, zi,j, yi,j);
9 / ∗ ∗ update Y in the coordinator ∗ ∗/;
10 yi,j ← yi,j+(∑t∈T U (t) i ,j − zi,j);
11 / ∗ ∗ if algorithm converges ∗ ∗/
12 如果收敛则
13 return X, Z, Y;

每个 RA 中的智能体根据协调信息和参数化策略，在 T 的时间间隔内为网络切片编排资源。在一个时间段 T 结束时，编排代理收集网络切片的性能 U。给定 X 和 U，性能协调器生成协调信息（Y 和 Z），并将其反馈给所有 RA 中的编排代理。该过程持续进行，直到资源编排收敛。

EdgeSlice：基于去中心化深度强化学习的无线边缘计算网络切片

V. EdgeSlice 设计：资源管理器

在本节中，我们设计了无线、传输和计算管理器，这些管理器在运行时将由智能体协调的资源分配给网络切片，如图2所示。这些管理器分别与开放空中接口（OAI）、开放日光（ODL）和CUDA GPU计算平台集成，以实现对无线接入网、传输网络以及边缘/云计算资源的动态配置。

A. 无线资源管理器

无线资源管理器设计用于与OpenAirInterface（OAI）协同工作，为网络切片用户在上行链路（UL）和下行链路（DL）无线接入网中分配无线资源。在EdgeSlice中，网络切片可使用的总无线资源（带宽）由编排代理确定。一旦网络切片获得其无线资源，便会将这些资源分配给其用户。因此，无线资源管理器能够获知所有切片用户的分配资源。于是，无线资源管理器应根据切片用户在运行时的分配资源进行调度，而 vanilla OAI 并不支持此功能。

我们通过在MAC层开发一种新的用户调度方法来实现这一功能，以管理PUSCH/PDSCH中的物理资源块 (PRB)。我们对切片用户进行连续调度，并将其无线资源映射到PRB上。没有分配任何无线资源的用户将不会被

238
授权许可使用仅限于：东卡罗来纳大学。下载时间：2021年6月29日 09:36:44 UTC，来源：IEEE Xplore。适用限制条款。
已调度。为了支持编排代理与无线资源管理器在运行时的信息交换，我们在无线资源管理器和编排代理中分别开发了VR‐R（虚拟资源‐无线）接口和VR（虚拟资源）接口。
移动用户与网络切片的关联通过用户的国际移动用户识别码（IMSI）来标识。IMSI信息是从基站发送到移动性管理实体（MME）的S1AP消息中提取的。该信息提取过程不需要对移动用户侧进行任何修改。

B. 传输管理器

利用SDN交换机中数据平面和控制平面的分离，我们通过OpenDayLight[24]控制器使用OpenFlow（南向 API）和RESTful（北向API）[25]来分配无线接入网（RAN）与边缘/云计算服务器之间的带宽。当前 OpenFlow协议支持通过计量器进行用户带宽修改。然而，当需要更改用户带宽时，这些计量器及其关联的流必须被删除并重新初始化。因此，在运行时更改用户带宽分配时，交换机网络在删除‐创建间隔[26]期间会中断。

为了在保持交换机网络正常运行的同时实现带宽的动态调整，当从编排代理接收到新的用户带宽分配时，我们会创建一个与当前配置并行的新配置。只有当新配置在交换机中可用时，才会释放当前配置，从而切换到新配置，以此隐藏删除‐创建间隔。此外，传输管理器与编排代理之间的信息交互通过VR‐T（虚拟资源‐传输）接口和虚拟现实接口实现。在传输网络中，用户与切片的关联通过其源和目的IP地址进行识别。

C. 计算管理器

计算管理器旨在动态分配基于CUDA的GPU计算平台中的计算资源，例如CUDA线程的数量。在CUDA编程模型中，一个应用程序可以启动多个内核，其中每个内核可由大量CUDA线程[27]并发执行。内核所需的线程数量由其执行配置语法指定。这些内核在内核空间中的执行顺序遵循其在用户空间中的调用顺序。通过多进程服务（ MPS），多个应用程序或进程可以同时共享GPU。然而，用户应用程序的资源调度策略不透明，且未被英伟达公开，因此无法有效控制用户应用程序的资源使用情况。

为了解决这一问题，我们开发了一种内核分裂机制，通过控制每个用户应用程序所占用的最大并发线程数来管理GPU计算资源。该内核分裂机制将请求大量线程的内核拆分为多个小型内核

示意图2

以及具有特定线程数的连续内核。我们在运行时根据用户的虚拟资源，对用户应用程序的内核进行大量修改，以动态拆分这些内核。由于内核是按顺序且连续执行的，因此用户应用程序占用的线程数始终小于其虚拟资源。我们在计算管理器中开发了VR‐C（虚拟资源‐计算）接口，用于与编排代理交换信息。移动用户与网络切片之间的关联通过IP地址识别。

D. 系统监控器

系统监视器旨在通过使用数据集来收集网络状态信息，例如流量负载和切片性能。数据库还根据用户的国际移动用户识别码（IMSI）和IP地址记录用户‐切片关联。系统监视器通过虚拟现实接口与无线、传输和计算管理器进行通信。
RC（资源协调）接口用于使中央性能协调器分别通过RC‐L（资源协调‐学习）和RC‐M（无线协调‐监控）与编排代理和系统监视器进行通信。SR（切片请求）接口用于使切片租户能够请求和配置其网络切片。例如，切片租户可以与网络运营商建立和修改其服务级别协议（ SLA）。这些SLA将在资源编排过程中被强制执行。

VI. 系统实现

A. 硬件细节

我们开发了如图4所示的EdgeSlice系统原型。该系统由包含2个演进型节点B的无线接入网（RAN）、包含6台 OpenFlow交换机的传输网络、核心网以及配备CUDA GPU的2台边缘服务器组成。硬件的详细信息汇总于表II。
为消除同频干扰，演进型节点B工作在不同的频段，即LTE 频段7和频段38。我们配置该频段

239
授权许可使用仅限于：东卡罗来纳大学。下载时间：2021年6月29日 09:36:44 UTC，来源：IEEE Xplore。适用限制条款。

组件	硬件	软件
UEs	4台具备频段选择功能的三星智能手机	Android 7.0
演进型节点B	2台搭载低延迟内核3.19的Intel i5计算机	开放空中接口（OAI）[28]
射频前端	2台Ettus USRP B210	N/A
传输	6台支持OpenFlow 1.3的Ruckus交换机	OpenDayLight‐Boron [24]
核心网	Intel i7台式计算机	openair‐cn [29]
边缘服务器	2x 英伟达 GEFORCE GTX 1080Ti	CUDA 9.0[27]

表II：原型的详细信息

在智能手机上的选择选项，使得eNodeB 1和2中的用户只能分别搜索频段7和频段38。
在原型中，有2个资源域（RA）、2个切片和4个移动用户（每个资源域中的每个切片对应1个用户），其中资源域（RA）由一个eNodeB、一个边缘服务器和一个传输链路组成。编排代理和性能协调器部署在核心网（Alienware R7 台式机）上，使用Python 3.5实现。性能协调器使用的优化工具箱是CVXPY 1.0[30]。无线资源管理器部署在每个 eNodeB中。传输管理器部署在一台独立的台式计算机上。
计算管理器实现在每个资源域（RA）的边缘服务器上。两个 eNodeB均具有5MHz（25 PRB）的无线带宽。每个 eNodeB与其对应的边缘服务器之间的总带宽为80Mbps。
每个资源域（RA）的计算资源总量为51200 CUDA线程。
我们使用TensorFlow 1.10[31]实现编排代理。在 Actor‐Critic网络中均采用两层全连接神经网络，每层均使用Leaky ReLU [32]激活函数，并包含128个神经元。
在输出层，我们使用 sigmoid[32]作为激活函数。在训练编排代理时，我们对超参数进行了广泛且经验性的调优。
我们在0到 Rtot j 之间随机生成zi,j − yi,j，以在不同协调信息下训练代理。参数 β= 20被设置为对总编排资源约束（3）施加足够的权重。Actor‐Critic网络的学习率均为 0.001，批量大小为512，总训练步数为1E6。累积奖励的折扣因子为 γ= 0.99。在训练阶段，我们在动作上添加衰减的高斯噪声，以平衡探索与利用。噪声初始为 N(0, 1)，每次更新步数后以0.9999的衰减因子进行衰减。

B. 模拟网络环境

编排代理通过使用如图5所示的模拟网络环境进行离线训练。在该环境中，我们为各个网络切片中的服务实现了一个先进先出（FIFO）队列，并且每个切片的性能函数可以自定义。在每个时间间隔内，根据真实的网络流量轨迹生成网络切片中的流量，即服务任务。每项任务的服务时间由端到端资源编排决定。

在模拟网络环境中，我们分别通过网格搜索方法遍历无线、传输和计算资源的所有可能编排动作，从而生成训练数据集。由于数量庞大

示意图3

在编排动作的实验中，我们对所有资源采用10%的资源粒度进行实验，这意味着数据集仅包含离散的编排动作。在智能体训练过程中，可能会产生训练数据集中未包含的编排动作。为解决此问题，我们使用scikit‐learn [34]工具构建一个线性回归模型，以近似编排动作与切片性能之间的相关性。给定一个资源编排动作，例如[12, 38, 22]%，我们使用数据集中的相邻编排动作，例如[10, 30, 20]%和 [10, 40, 20]%，来拟合该线性模型。一旦线性模型拟合完成，即可预测该编排动作下的服务时间。服务时间决定了服务队列中的流量离开情况。在每个时间间隔结束时，根据所有网络切片的性能以及公式15中的奖励函数设计，计算出奖励。

第七节性能评估

在本节中，我们通过原型实验和网络仿真对 EdgeSlice的性能进行评估。在每个时间间隔内，第 j个无线接入区域上的第 i个切片根据U(t) i ,j = − α (l( t) i , j) , ∀i ∈ I, j ∈ J, t ∈ T向编排代理报告其性能，其中 α= 2和 l (t) i , j为队列长度。需要注意的是，性能函数用于评估EdgeSlice是否能够学习到最优的资源编排策略。
换句话说，性能协调器和编排代理均不知道性能函数的闭式表达式。此外，在仿真中评估了多种不同的性能函数。
切片的性能需求定义为Umin i = −50, ∀i ∈ I和ρ= 1.0[35]。

A. 移动应用

为了评估系统性能，我们开发了一款移动应用，该应用程序将计算任务卸载到边缘/云

240
授权许可使用仅限于：东卡罗来纳大学。下载时间：2021年6月29日 09:36:44 UTC，来源：IEEE Xplore。适用限制条款。
服务器。此处的计算任务是基于YOLO目标检测框架[36]的视频分析。这些应用程序的基本流程为：1）用户将具有特定分辨率的视频帧发送至服务器，并等待接收处理结果；2）服务器接收来自用户的视频帧，并使用特定的计算模型执行YOLO算法对视频帧进行分析；3）服务器将分析结果返回给用户。移动应用可以使用不同的帧分辨率，例如100x100、300x300到500x500，并选择不同的计算模型，例如YOLO 320x320、YOLO 416x416到YOLO 608x608。其中，帧分辨率较高的应用程序具有更重的传输流量，而计算模型较大的应用程序需要更密集的计算工作负载。

B. 对比算法

在性能评估中，我们将EdgeSlice资源编排与以下算法进行比较：
流量的资源编排（TARO） ：TARO 是一种基线算法，其中所有资源根据当前队列长度按比例由切片共享。
换句话说，x(t) i ,j = Rtot j · l(t) i ,j /∑i∈I l(t) i,j , ∀j ∈ J。该共享方案适用于系统中的所有资源域。

EdgeSlice‐非流量版本（EdgeSlice‐NT） ： EdgeSlice‐NT 是 EdgeSlice 的一个简化版本，其中编排代理仅基于性能协调器提供的协调信息来管理资源。因此， EdgeSlice‐NT 的编排代理的状态空间为 st=[zi,j − yi,j , ∀i ∈ I]。换句话说，EdgeSlice‐NT 在深度强化学习模型中不使用网络切片的队列长度作为状态。
通过比较 EdgeSlice 和 EdgeSlice‐NT，我们可以评估状态空间设计（即是否包含流量负载）对网络切片性能的影响。

C. 实验结果

这里，我们展示了实验结果，并从不同角度评估了 EdgeSlice系统的性能。在实验中，共有2个切片、2个 RA以及3种资源类型。第一个切片中的移动应用采用 500x500的帧分辨率，并选择YOLO 320x320作为计算模型。该应用程序代表具有高传输流量负载和中等计算负载的应用类型。第二个切片中的移动应用采用100x100的帧分辨率，并选择YOLO 608x68作为计算模型。该应用程序代表具有低传输流量负载但计算负载密集的应用类型。
在实验中，时间间隔 t为1秒，时间段 T由10个时间间隔组成。在这些时间间隔内，网络切片的任务到达遵循平均到达率2 10的泊松过程。
切片流量根据原型的硬件能力（如带宽和GPU）在支持移动应用方面的性能进行了归一化处理。

示意图4 (a) 20 40 60 80100 时间间隔)

计算资源 20 40 60 80100 0 切片1 切片2 (b) 传输资源 20 40 60 80100 0.2 0.4 0.6 0.8 1.0 0.0 时间间隔 0 (a) 无线资源切片1 切片2)

1) 收敛：

在EdgeSlice系统中，性能协调器通过协调信息[zi,j−yi,j, ∀i ∈ I]协调多个编排代理。我们首先评估协调器与编排代理之间的交互收敛速度。如图6 (a)所示， EdgeSlice和EdgeSlice‐NT均能在若干时间段后实现收敛。该结果还表明，编排代理能够根据不同协调信息有效进行切片资源编排。与TARO和EdgeSlice‐NT相比， EdgeSlice的系统性能分别提升了3.69倍和2.74倍。相较于TARO的性能提升证明了EdgeSlice能够基于当前网络状态和协调信息有效学习最优的资源编排策略。相较于 EdgeSlice‐NT的性能提升表明，编排代理观测切片的流量负载可显著提升系统性能。此外，如图6 (b)所示， EdgeSlice系统确保两个网络切片均满足其最低性能要求。
图7展示了EdgeSlice系统下多种资源（即无线、传输和计算资源）的归一化使用率。在实验中，切片1对无线和传输资源的需求高于切片2，而对计算资源的需求低于切片2。因此，我们观察到EdgeSlice将更多的无线和传输资源分配给切片1（蓝色区域）。由于切片2服务于计算密集型应用，因此需要更多的计算资源。因此，在初期，切片2被分配了更多的计算资源。随后，EdgeSlice发现尽管切片1已被分配了几乎所有的无线和传输资源，其性能需求仍无法满足。因此，EdgeSlice开始向切片1分配更多的计算资源，随后资源编排趋于收敛。此外，我们观察到在6次交互后，资源编排变得稳定，这与图6 (a)中的观察结果一致。

241
授权许可使用限制为：东卡罗来纳大学。于2021年6月29日09:36:44 UTC从IEEE Xplore下载。限制作适用。

2) 资源编排：

我们在没有中心协调的情况下评估编排代理，以了解其资源编排策略。图8 (a) 描绘了在随机生成的切片流量负载下切片性能的累积分布函数（CDF）。
可以看出，在切片性能方面，EdgeSlice 显著优于 TARO 和 EdgeSlice‐NT。例如，使用 EdgeSlice 时， 80% 的切片性能大于 ‐30，而使用 TARO 和 EdgeSlice‐NT 时分别为 11% 和 55%。EdgeSlice 与 EdgeSlice‐NT 之间的性能差距小于图6 (a) 中显示的结果。原因是 EdgeSlice‐NT 中编排代理的性能缺陷在代理与协调器之间的迭代交互过程中逐渐积累所致。
图8 (b)‐(d) 显示了在不同流量负载下使用 EdgeSlice获得的切片1和切片2之间的平均资源使用率。
一个切片的平均资源使用量计算公式为 ηi= ∑k∈K xi,j,k/r tot j,k。可以观察到，EdgeSlice根据流量负载以及应用程序在不同域中的资源需求来为切片分配资源。例如，当切片1和切片2的流量负载分别为20和5时，平均资源使用率约为5。该示例体现了EdgeSlice的流量感知能力。由于EdgeSlice‐NT中的编排代理在资源编排过程中未学习切片流量负载，因此其资源使用率保持恒定，如图8 (c) 所示。TARO仅基于切片流量进行资源分配，无法感知各域的实际资源需求，其资源使用率如图8 (d) 所示。EdgeSlice与TARO的对比表明，EdgeSlice能够感知应用程序的多域资源需求。这些结果验证了 EdgeSlice的编排代理能够在变化的切片流量下自主编排端到端资源。

D. 仿真结果

我们建立了网络仿真，以评估EdgeSlice在可扩展性以及与不同训练技术和性能函数协同工作方面的表现。在仿真中，共有5个切片、10个资源域和3种资源类型。网络切片服务的应用程序随机选择帧分辨率，例如100x100、300x300 或500x500，以及计算模型，例如320x320、416x416、 608x608。我们使用来自意大利移动网络在省范围内的网络轨迹特伦托 [33]用于生成网络切片中的流量。该网络轨迹包含2013年12月收集的1.548亿条记录，最小时间间隔为10分钟。每条记录包括电话通话、短信、互联网流量的次数以及地理方格区域编号。我们获取了不同地理区域下 24小时内的平均通话流量，并将其用作网络切片的流量数据。在仿真中，时间间隔 t为1小时，时间段 T由24个时间间隔组成。

1) EdgeSlice的可扩展性：

我们通过改变切片数量和 RA数量来评估EdgeSlice的可扩展性。如图9(a)所示，随着RA数量的增加，EdgeSlice和EdgeSlice‐NT在每个 RA上的性能保持相似，而TARO在每个RA上的性能显著下降。该结果表明，EdgeSlice智能体在每个RA中学到了比TARO更优的资源编排策略。此外，EdgeSlice能够在大规模网络中扩展，而不会明显牺牲系统性能。图9(b)展示了不同网络切片数量下的每个切片性能。随着切片数量的增加，系统性能下降，因为资源需求更高，且切片的平均分配资源减少。尽管如此，EdgeSlice仍能获得优于其他方法的性能。这些结果验证了EdgeSlice系统的可扩展性。

2) 代理的训练技术：

我们研究了各种技术对 EdgeSlice系统中编排代理训练的影响。如图10(a)所示，当代理的训练步数不足（例如1E5）时，系统性能显著下降。通常情况下，训练步数较多的基于学习的代理比训练步数较少的代理具有更好的性能。可以看出，当训练步数为1E5或更少时，EdgeSlice和EdgeSlice‐NT的性能可能不如TARO。这意味着如果代理未得到充分训练，可能导致性能非常差。此外，已有多种技术被提出以提升代理的性能，例如SAC [37],、PPO [38],、TRPO [39],和 VPG[40], 。我们在不同训练技术下评估了EdgeSlice的系统性能，结果如图10(b)所示。训练设置和超参数与第六节中提到的相同。使用DDPG训练的编排代理相较于其他技术训练的代理表现出更优的性能。这些结果表明了训练技术的重要性。

242
授权许可使用仅限于：东卡罗来纳大学。下载时间：2021年6月29日 09:36:44 UTC，来源：IEEE Xplore。适用限制条款。

(a) 1E5 Sy ste m Pe rfo rm an ce 训练步数 1.5E6 5E5 1E6 -5 -4 -3 -2 -1 10 3 EdgeSlice EdgeSlice‐NT TARO)

3) 处理不同的性能函数：

我们在网络切片的不同性能函数下评估EdgeSlice的性能。如图11 (a)所示，我们改变性能函数中的 α值。较大的α表示在相同队列长度下切片报告的性能更差。在所有条件下，EdgeSlice均优于其他方法，这表明EdgeSlice能够在不同的性能函数下自动学习更优的资源编排策略。此外，我们定义了另一种性能函数为切片用户的服务时间的负值，而不考虑切片队列中的流量。如图11 (b)所示，EdgeSlice和EdgeSlice‐NT实现了几乎相同的系统性能。因为我们有意消除了切片流量对切片性能函数的影响。因此，EdgeSlice所观察到的网络状态（即队列长度）对于学习相关性没有帮助。相比之下，TARO的性能要差得多。这些结果表明，当性能函数对网络状态的依赖性较小时，基于学习的EdgeSlice和 EdgeSlice‐NT 在性能上仍然远超 TARO。这些结果验证了 EdgeSlice 处理各种切片性能函数的能力。

八、相关工作

这项工作涉及网络切片中的资源管理以及用于网络问题的深度强化学习。
网络切片中的资源管理 ：网络切片中的资源管理问题已被广泛研究，旨在最大化系统性能。Caballero 等人 [8]构建了一个网络切片博弈，其中租户是自私的，以最大化自身性能。作者证明了针对弹性流量，该博弈在上述策略行为下收敛于纳什均衡。Halabian 等人[9]指出，在最大化整体系统性能时，系统中的非协作切片会损害公平性性能，并通过扩展主导资源公平性（DRF）框架提出了一种分布式解决方案。为了利用切片的统计复用增益， Sciancialepore 等人[41]设计了STORNS，该方案借助随机几何理论，考虑每个切片的SLA需求来优化切片的准入控制。Salvat 等人[11]开发了一种端到端资源编排系统，提出了在网络切片中最大化收益的编排问题，并提出了最优的Benders分解法和一种启发式方法。Foukas 等人[5]开发了一种高效的无线接入网切片系统，能够实现基站的动态实时虚拟化以及切片定制，以满足切片的服务需求。然而，这些工作的基本假设是，网络运营商已知切片的资源需求及其性能函数的闭式数学表达式。相比之下，本文提出的EdgeSlice系统实现了一种无模型资源编排方案。

深度强化学习(DRL)在网络中的应用 ：深度学习和强化学习等机器学习技术在解决移动网络中资源管理问题方面获得了广泛关注，以应对复杂的网络动态。毛等人[20]设计了基于DQN技术的DeepRM，用于优化用户的准入控制和资源编排，在平均减速指标上相比启发式解决方案实现了显著降低。徐等人[17]利用先进的DDPG技术解决流量工程（TE）网络问题，即网络链路带宽分配，在未知性能函数条件下实现了显著的端到端延迟降低和性能提升。贝加等人[42]提出了基于深度学习技术的 DeepCog，用于预测单个切片内的网络容量，并在资源过度配置与服务请求违规之间实现平衡。杨等人[43]提出了一种基于自适应强化学习的微服务工作流系统方法，支持无模型资源分配并改善了微服务的响应时间。然而，这些现有工作均主张通过中心化架构实现资源管理集中化

243
授权使用的范围限制为：东卡罗来纳大学。于2021年6月29日09:36:44 UTC从IEEE Xplore下载。限制适用。
智能体。尽管它们的解决方案可能适用于执行资源编排，但中心化的资源编排对于无线边缘计算网络而言复杂度极高。与这些方法不同，EdgeSlice 系统实现了去中心化的资源编排。

九、结论

在本文中，我们设计了EdgeSlice，一种新的去中心化资源编排系统，用于在无线边缘计算网络中实现动态网络切片的自动化。为了实现EdgeSlice，我们开发了一种新颖的去中心化的深度强化学习方法，该方法由一个中央性能协调器和多个编排代理组成。编排代理在中央性能协调器的协调下，学习网络切片的最优资源编排策略。我们还设计了新的无线、传输和计算资源管理器，能够在运行时动态配置端到端资源。我们基于无线接入网中的 OpenAirInterface（OAI）、传输网络中的 OpenDayLight（ODL）以及边缘/云服务器中的 CUDA GPU计算，开发了EdgeSlice的原型。
EdgeSlice的性能已通过原型实现和网络仿真得到了验证。

致谢
本工作部分由美国国家科学基金会资助号1731675、 1810174和1910844支持。