面向移动边缘计算系统中混合5G服务的深度学习:学习自数字孪生
董蕊,IEEE学生会员,常阳舍,IEEE会员,维博沃·哈贾瓦纳,IEEE会员,李永辉,IEEE会士,和布拉卡·武切蒂奇,IEEE会士
摘要—在本研究中,我们考虑一种包含超可靠低时延通信服务和延迟容忍服务的移动边缘计算系统。通过优化用户关联、资源分配和卸载概率,在满足服务质量要求的前提下,我们的目标是最小化归一化能耗(即每比特能耗)。用户关联由移动性管理实体(MME)进行管理,而资源分配和卸载概率则由各个接入点(AP)确定。我们提出了一种深度学习(DL)架构,其中利用真实网络环境的数字孪生在中央服务器上离线训练深度学习算法。基于预训练的深度神经网络(DNN),MME可以实时获得用户关联方案。考虑到真实网络并非静态,数字孪生将持续监控真实网络的变化并相应更新DNN。对于给定的用户关联方案,我们提出一种优化算法以在每个接入点(AP)上找到最优的资源分配和卸载概率。仿真结果表明,与现有方法相比,我们的方法能够在更低的计算复杂度下实现更低的归一化能耗,并接近全局最优解的性能。
一、引言
A.背景与动机
在第五代(5G)通信系统中,存在从高数据速率的延迟容忍服务到超可靠低延迟通信(URLLC)[1]的各种应用。通过实现超低端到端(E2E)时延和超高可靠性,URLLC为新兴的时延敏感型应用(如工厂自动化、自动驾驶车辆以及虚拟/增强现实)奠定了基础[2]。这些应用中的设备将生成一些需要在短时间内处理的任务。为了减少每个设备本地服务器上的处理时间,并避免回传链路和核心网络中的时延,移动边缘计算(MEC)是一种有前景的解决方案[3]。然而,当一个任务是以短数据包形式进行分组并经由无线链路卸载至多接入边缘计算服务器时,当信道处于深度衰落状态,数据包可能会丢失[4]。此外,即使在任意高的信噪比(SNR)条件下,短分组长度信道编码仍会导致非零的解码错误率[5,6]。因此,在移动边缘计算系统中实现超高可靠性和超低时延极具挑战性。
另一方面,移动设备的电池容量有限。提高用户的电池寿命或能量效率(EE)是一项紧迫的任务[3, 7, 8]。通过将任务卸载到多接入边缘计算服务器,可以节省移动设备上本地服务器的能耗,但数据传输会消耗额外的能量。为了最小化每个用户的总能耗,需要优化卸载概率。在包含多个多接入边缘计算服务器和多个用户的多接入边缘计算网络中,联合优化用户关联[9],资源分配和卸载概率的问题是非凸且复杂的。如何在同时存在URLLC服务和延迟容忍服务的场景下,通过求解非凸问题来提升能量效率(EE),仍然是一个开放性问题。
为了找到该问题的最优解,有两种方法:优化算法和机器学习算法。由于优化算法在信道变化时需要重新搜索最优解,因此适用于小规模问题,例如单接入点(AP)场景中的资源分配[8,10]。当问题规模增大时,深度学习(DL)算法能够在实时方式下找到接近最优的解[11]。基于深度神经网络(DNN)的通用近似定理[12], ,DNN可被用作最优策略的近似器。从最优策略中获得的状态‐动作对可作为标注样本用于训练DNN。一旦DNN的训练完成,我们就可以根据不同信道实现计算出相应的资源分配。
为了训练深度学习算法,我们首先需要从简化系统模型中获得最优策略。然而,在实际系统中,最优策略可能无法获取。因此,需要采用其他技术来实现深度学习算法。一种不需要标注训练样本的方法是深度强化学习[13]。通过从真实环境反馈中学习,深度强化学习被广泛用于最大化马尔可夫决策过程的长期奖励。但由于以下两个原因,该方法不适用于URLLC服务。第一,最大化长期奖励无法保证每个时隙中的时延和可靠性要求。其次,为了通过真实网络环境的反馈来检查丢包概率是否满足可靠性要求,用户需要传输大量数据包。如果所需的丢包概率为10−7,则用户需要传输超过107 个数据包,这可能超过用户服务时间内将生成的数据包总数。为解决此问题,我们需要借助基于模型的方法获得的理论结果来计算丢包概率。
为了将无模型深度学习算法与基于模型的理论结果相结合,我们建立了真实网络环境的数字孪生。如[14],所示,数字孪生是真实网络的虚拟数字模型,包含来自真实网络的数据(例如,网络拓扑、调度器和信道)以及理论研究中的基本规则(例如,信息论和排队论中的权衡)。借助数字孪生,我们可以计算特定用户关联和资源分配决策下的能耗、时延和数据包丢失概率。此外,通过监控真实网络环境的变化,系统可以更新数字孪生以训练深度神经网络。因此,有可能在非平稳环境中实现深度学习算法。然而,如何在移动边缘计算系统中针对混合5G服务将数字孪生应用于深度学习架构仍不明确。
受上述问题的启发,本文将回答以下问题:1)如何提高移动边缘计算系统中超可靠低延迟通信和延迟容忍服务的能效?2)如何建立镜像真实网络环境的数字孪生?3)当最优策略不可获得时,如何基于数字孪生训练深度神经网络?
B.我们的解决方案与贡献
在本文中,我们旨在提高移动边缘计算系统中用户在满足URLLC服务的时延和可靠性约束以及延迟容忍服务的稳定性约束下的能效。采用真实网络的数字孪生来训练深度学习算法。据作者所知,这是首次将数字孪生概念引入无线网络的研究。本文的主要贡献总结如下。
我们提出了一种深度学习框架,用于在具有多个接入点的移动边缘计算系统中提升超可靠低延迟通信和延迟容忍服务的能效。通过优化用户关联、资源分配和卸载概率,最小化定义为每比特能耗的归一化能耗。在此框架中,最优用户关联方案由一个深度神经网络近似,该网络首先在中央服务器上进行离线训练,然后发送至移动性管理实体(MME)。对于给定的用户关联方案,各接入点分别优化资源分配和任务卸载策略。
•我们建立移动边缘计算系统的数字孪生以探索标注训练样本,其中网络拓扑、信道与排队模型以及基本规则被应用于数字孪生中,以镜像真实系统。基本思想是评估不同用户关联方案在数字孪生中的归一化能耗、时延和可靠性,并将最优方案作为标注训练样本保存在内存中。
•考虑到不同用户关联方案的性能取决于每个接入点的行为,即资源分配和任务卸载策略,我们提出了一种能够以线性复杂度收敛到全局最优资源分配的算法。然后,该算法被用于数字孪生中进行性能评估。
此外,仿真结果表明,与现有方案相比,所提出的深度学习框架能够在更低的计算复杂度下实现更低的归一化能耗,并可接近全局最优解。
II.相关工作
在现有文献中,如何在满足时延约束的条件下提高移动边缘计算系统中移动设备的能效已被广泛研究 [7,8,10,15,16]。为了研究能效与时延之间的权衡,在单接入点场景下最小化了能耗与时延的加权和[8]。在文献 [10]和[7],中,分别在单接入点场景和多接入点场景下,在满足延迟约束的条件下最大化能效。文献[15]的作者利用随机几何分析了能效和时延,并为网络配置与规划提供了一些有用的指导。上述研究主要关注单一类型的服务,忽视了服务异构性。为解决这一问题,文献[16],提出了一种博弈论方法,在多接入移动边缘计算系统中优化资源管理和用户关联。
一些近期的研究也探讨了如何在移动边缘计算系统中应用机器学习算法进行用户关联或任务卸载[17–20]。深度Q学习被用于通过根据信道状态信息、队列状态信息以及能量收集系统的能量队列状态来优化卸载决策,从而最小化任务执行成本[17]。类似的方法也在[18]中应用于物联网设备的能量收集。[19]的作者提出了一种高效的基于强化学习的资源管理算法,将可再生能源融入移动边缘计算系统。最近,还研究了一种在单接入点场景下的任务卸载深度强化学习框架[20]。
上述研究为移动边缘计算系统提供了有益的见解和有前景的机器学习算法,但未考虑5G服务。支持移动边缘计算系统中的超可靠低延迟通信在[21]和[22]中进行了研究。在 [21],中,在满足时延和可靠性约束的前提下,最小化了移动设备的长期平均功耗。在[22]中,针对单个用户最小化了时延与可靠性的加权和。然而,如何在移动边缘计算系统中服务于混合5G服务仍不明确,值得进一步研究。
III.系统模型
A.移动边缘计算系统
我们考虑一个如图1所示的移动边缘计算系统,其中 M个接入点为 K u个URLLC服务和 K b个延迟容忍服务提供服务,分别由 Ku={1,…, Ku}和 Kb={Ku+1,…, Ku+ Kb}索引。为表示简便,本文使用上标 ξ={u,b}来表示服务类型。如果 ξ= u,该参数用于URLLC服务;否则,用于延迟容忍服务。本文所使用的所有符号均列于表I中。
接入点连接到负责用户关联的移动性管理实体( MME)。为了建立数字孪生,MME将网络的一些参数和模型发送到中央服务器,在该服务器上的数字孪生中探索用户关联方案。我们使用深度神经网络(DNN)来逼近最优的用户关联方案,该DNN在数字孪生中离线训练。训练阶段结束后,用于用户关联的DNN被发送到MME。在给定的用户关联方案下,网络可被分解为单接入点问题。1对于每个单接入点问题,接入点为其关联的用户优化资源分配和任务卸载。
每个接入点配备一个边缘计算服务器,每个用户拥有一个本地服务器。时间被离散化为时隙,每个时隙的持续时间为 Ts。第 m个边缘计算服务器和第 k个用户的服务速率分别表示为 Sm(CPU周期/时隙)和 C ξ k (CPU周期/时隙)。第 k个用户可以在[0, C max,ξ k ]范围内调节 C ξ k ,其中 C max , ξ k 是该用户的最大计算能力。
不失一般性,系统中的非平稳参数可分为两类。第一类参数变化剧烈,例如大尺度信道增益和平均任务到达率。第二类参数变化缓慢,例如某一区域的用户密度。对于第一类参数,我们将其包含在DNN的输入中。对于第二类参数,系统会监控其值并在数字孪生中进行更新。然后,深度神经网络从更新后的数字孪生中学习。无需重新训练新的DNN,而是使用之前训练良好的DNN进行初始化。频率复用因子小于1,表示相邻接入点分配了不同的带宽。因此,不存在强干扰,弱干扰被视为噪声。通过这种方式,DNN的输出随非平稳参数变化。
B.计算任务和通信数据包
第 k个用户的计算任务由(λξ k, bξk,cξk)表征,其中λξ k(包/时隙)是第 k个用户产生的平均任务到达率, bξk(比特/包)是每个任务的比特数(即数据包大小),cξk(周期/包)是处理每个任务所需的CPU周期数。我们假设每个任务通过一个数据包传输, bξk与 cξk之间的关系由 cξk= k1b ξ k给出, 其中 k1> 0(周期/比特)取决于任务的计算复杂度[23– 25]。
对于URLLC服务,我们假设每个数据包的大小以及处理每个数据包所需的CPU周期数是恒定的(例如32字节[1]),且数据包到达过程遵循伯努利过程。在每个时隙中,用户要么有一个数据包需要传输,要么保持静默。对于延迟容忍服务,数据包之间的到达间隔时间和数据包大小均可服从任意的通用分布。唯一的假设是延迟容忍服务的数据包大小远大于URLLC服务的数据包大小。在本文其余部分,将URLLC服务和延迟容忍服务的任务分别称为短包和长包。
C.无线链路上的可实现数据速率
用户可以通过无线链路将任务卸载到其中一个多接入边缘计算服务器。设 β为用户关联向量,其元素β ξ m,k表示第 k 个用户是否与第m个接入点相关联。如果第 k个用户与第 m 个接入点关联,则β ξ m,k = 1;否则,β ξ m,k = 0。我们假设每个用户只能将数据包卸载到一个接入点,即∑m ∈ M β ξ m,k = 1,其中 M= 1,…, M是接入点的索引集合。
1)URLLC的可实现速率:我们考虑正交频分多址( OFDMA)系统。分配给第 k个用户的子载波数量表示为 N ξ m,k。由于URLLC服务的数据包大小较小,因此它可以假设N u m,k个子载波的带宽小于相干带宽,且传输时间也小于信道相干时间。因此,每个数据包都在平坦衰落准静态信道上传输。如果第 k个用户接入第 m个接入点,则第 k个URLLC用户的可达速率 k ∈ K u可近似为[26]
Ru k ≈ N u m,kW ln2 (1) ln(1+ αu m,kg u m,kP t,u k ΦN u −√ V u k TsN u m,kW f −1 Q(ε d,u k) ,
其中, W是每个子载波的带宽,αu m,k是大尺度信道增益,g u m,k是小尺度信道增益, P t , u k是发射功率, Φ是一个信噪比损失系数,反映了实际信道编码的可达速率与近似值之间的差距, N0是单边噪声谱密度, f −1 Q 是Q函数的反函数, ε d , u = 1 − 1 /(1+ α u m,k g u m,k P t,u k ΦN u m,k WN 0) 2 .
2) aDta ate or e ay oerant Services:对于时延容忍业务,数据包大小较长,香农容量是对可达速率的良好近似。如果第 k个用户接入到第 m个接入点,则第 k个用户的遍历容量k ∈ K b可以表示为
R f D l T l E g b m,k (R b k) = E g b m,k N b m,k W log2( 1+ α b m,kg b m,k P t,b k N b m,k WN 0) , (2) 其中α b m,k是大尺度信道增益, g b m,k是小尺度信道增益, P t , b k 是发射功率。
D.卸载策略
1)URLLC服务的卸载策略:考虑到接收器向发射器的反馈可能会引起较大的头部和额外时延,我们假设每个发射器仅可获得1比特信道状态信息,该信息指示小尺度信道增益是否超过某一阈值 g th , u k 。如果小尺度信道增益高于该阈值,则数据包以概率一卸载至多接入边缘计算;否则,卸载概率为零。因此,总的卸载概率 xuk等于gmu,k ≥ g th , u k的概率,即
xuk= Pr{g u m,k ≥ g th,u k}= ∫ ∞ g th,u k e−gdg= e−g th,u k, (3)
其中考虑了瑞利衰落。
2)延迟容忍服务的卸载策略:对于每个长数据包,传输持续时间可能超过信道相干时间。我们考虑一种不依赖于当前小尺度信道增益的卸载策略。当第 k个用户 k ∈ K b有数据包需要处理时,该数据包以概率 xb k ∈[0, 1]被卸载到边缘计算服务器,以概率(1 − xb k)在本地服务器上进行处理。
E.排队模型
本地服务器和多接入边缘计算服务器的排队模型如图2 所示。在本地服务器中,数据包按照先到先服务(FCFS)顺序进行服务。URLLC服务与延迟容忍服务之间的区别在于上行传输前的排队模型。对于URLLC服务,每个数据包在一个时隙内完成传输。由于数据包到达过程遵循伯努利过程,峰值到达率为每时隙一个数据包,等于无线链路的传输速率。因此,在上行传输前不存在队列。对于延迟容忍服务,峰值到达率可能高于传输速率,因此部分数据包在上行传输前可能需要在通信队列中等待。
在多接入边缘计算服务器中,存在短数据包和长数据包。如果按照先到先服务(FCFS)顺序处理数据包,则在长数据包之后到达的短数据包需要等待长数据包处理完毕。为了避免较长的排队时延,在每个接入点[27]采用处理器共享(PS)服务器。在PS服务器上,服务器的服务速率均等地分配给服务器中的所有数据包。当第 m个服务器中有 i个数据包时,每个数据包的服务速率为 Sm/i。如[28],所示,当同时存在短数据包和长数据包时,PS服务器的性能优于FCFS服务器。
F.本地服务器的能耗与处理速率
设 eloc , ξ k为第 k ξ k= k0 [23,29] eloc C ξ k 2 k0 个用户的每 CPU周期能耗。根据中的测量结果,()(焦耳/周期),其中是依赖于芯片架构的系数。 k0的典型值为 10−15。本地服务器每包能量消耗为
Eloc,ξ k= eloc,ξ cξk= k0(C ξ k)2c ξ k,(J/packet), (4)
这表明处理一个数据包的能耗随着处理速率Cξ k的增加而增加。
IV.问题建模与深度强化学习框架
在本节中,我们首先分析两种不同服务的服务质量(QoS)约束。然后,我们建立一个优化问题,通过优化用户关联、资源分配和卸载概率,在满足QoS需求的前提下,最小化所有用户的每比特最大能耗。最后,我们介绍深度学习框架。
A.超可靠低延迟通信服务的QoS约束
数据包的端到端时延定义为数据包到达时间与该数据包处理完成时间之间的间隔。对于超可靠低延迟通信服务,我们用 D max ,u和 ϵ max , u分别表示所需的时延界限和可容忍时延越界概率的最大阈值。
1)本地服务器的QoS约束:如果数据包在本地执行,其处理时延为
D lc,u k = c u k C u k (slots). (5) 当信道处于深度衰落时,即g u m,k < g th , u k ,用户的 所有数据包均由本地服务器服务,并且到达过程是一个平均到达率为λu k的伯努利过程。在恒定服务速率 Cu k下,该排队模型为Geo/D/1/FCFS模型。Geo/D/1/FCFS模型中排队时延的互补累积分布函数( CCDF) Dlq, u k由(6)式给出,如[30]所示。
端到端时延的约束可以表示如下,
Dlc,u k+ Dlq,u k ≤ Dmax,u. (7)
排队时延违规概率应满足
ϵlq,u k= Pr{Dlq,u k>(Dmax,u − Dlc,u k)} ≤ ϵmax,u, (8)
可以根据(6)计算得出。
2)卸载到边缘计算服务器时的QoS约束:当PS服务器中存在长包和短包时,短数据包处理时延的互补累积分布函数的精确近似由[28],给出
ϵmc,u k=(ρmc m)( SmD mc,u k cu k −1), (9)
其中 ρmc m是第 m个边缘计算服务器的工作负载,定义如下,
ρmc m= ∑k∈K u x u kλ u kc u k+∑k∈K b x b kλ b k¯c b k Sm , (10)
其中 ¯cbk是处理一个延迟容忍服务数据包所需的平均 CPU周期数。当卸载到多接入边缘计算服务器时,数据包的端到端时延应满足以下约束条件,
1+ Dmc,u k ≤ D max,u, (11)
其中数据传输占据一个时隙。
由于解码错误和处理时延违规,整体丢包概率可表示为 ϵu k = 1 −(1−ϵ mc , u k )(1−ϵ d , u k) ≈ ϵ mc , u k + ϵ d, u k ,其中该近似是精确的,因为 ϵ mc , u k 和 ϵ d , u k 极小。然后,第 k个用户的可靠性约束可表示为,ϵ mc , u k +ϵ d, u k ≤ ϵmax, u。我们将解码错误概率的上界和处理时延违规概率的上界设为相等,即
ϵ mc,u k ≤ 0.5ϵ max,u , ϵ d,u k ≤ 0.5ϵ max,u . (12)
如[4],所示,将不同的数据包丢失概率设置为相等会导致较小的功率损失。通过将(9)式中的处理时延违规概率代入约束条件 ϵ mc , u k ≤0.5ϵ max , u,我们可以推导出关于工作负载的如下约束:
ρ mc m ≤(0.5ϵ max,u )[ c u k S m ( D max,u − 1 ) − c u k], ρ th . (13)
B.延迟容忍服务的稳定性
对于延迟容忍服务,我们只需确保排队系统是稳定的,即平均服务速率等于或高于平均到达速率。
1)本地服务器速率约束:为确保本地服务器上排队系统的稳定性,我们需要保证处理速率高于平均数据到达速率,
Cb k ≥(1 − xbk)λ b k¯c b k,(cycles/slot). (14)
此外,处理速率不应超过服务器的最大计算容量, Cb k ≤ Cmax , b k 。
2)无线链路速率约束:为了确保图2中通信队列的稳定性,需要保证无线链路的平均传输速率等于或高于平均数据到达率,即
Eg b k) ≥ xbk ¯bbkλ b k/Ts, (15)
其中 ¯bbk是长数据包中的平均比特数。
3)MEC服务器上的工作负载约束:当仅有延迟容忍服务向第 m个MEC服务器卸载数据包时, xuk= 0, ∀k ∈ K u,若工作负载满足以下约束,则PS服务器的稳定性可以得到保证,
ρmc m= ∑k∈K b x b kλ b k¯c b k Sm ≤ 1. (16)
否则,应满足约束(13)。
C.目标函数:归一化能耗
我们的目标是最小化归一化能耗,即每比特能耗。
1)URLLC服务:对于URLLC服务,本地服务器的电路功率和数据包卸载的平均发射功率分别为 λu k E loc , u k和 λu k P t , u k Ts(J/时隙)。由于平均数据到达率为 λu k bu k(bits/ 时隙),归一化能耗为
ηu k =(1 − xu k) λu k E loc,u k + xu k λu k P t,u k Ts λu k bu k =(1 − xu k) E loc,u k bu k + xu k P t,u k Ts bu k (J/bit). (17)
2)延迟容忍服务:如果数据包在本地服务器处理,则平均能耗为 E loc , b k = k0(C b k) 2 ¯c b k ,该值由(4)式得出。因此,每比特能耗为 η loc , b k = E loc, b k /¯b b k 。如果将数据包卸载到多接入边缘计算服务器,则每个时隙的能耗和传输的平均数据量可分别表示为 P t , b k Ts和 x b k λ b k ¯b b k 。因此,每比特能耗为 η mec , b k = P t, b k Ts /x b k λ b k ¯b b k 。因此,用户 k, k ∈ K b的归一化能耗可表示如下,
η b k =(1 − x b k) η loc,b k + x b k η mec,b k =(1 − x b k) E loc,b k ¯ b b k + x b k P t,b k Ts x b k λ b k ¯ b b k (J/bit). (18)
D.优化问题
为了避免信道条件较差或任务到达率较高的用户出现高能耗的情况,我们通过最小化 Ku+ Kb用户的最大归一化能耗来考虑所有用户之间的公平性。如果存在一个中央控制平面来管理用户关联和资源分配,则该优化问题可表述如下:
P1: min βξ m,k,Pt,ξ k,Nξ m,k,xξk max k∈Kξ ηξ k (19)
s.t. xξ k ∈[0, 1], ∀k ∈ K ξ, (19a)
∑ k∈K ξ Nξ m,k ≤ N max, m= 1,…, M (19b)
∑ m∈M βξ m,k= 1, (19c)
ρmc m ≤{ 1, if xuk= 0, ∀k ∈ K u; ρth, otherwise, (19d)
Cξ k ≤ Cmax,ξ , ∀k ∈ K ξ, (19e)
P t,ξ k ≤ P max,ξ , ∀k ∈ K ξ, (19f) (1),(2),(7),(8),(11),(12),(14) and(15),
其中, Nmax是每个接入点的子载波总数, P max和 ξ k是第 k个用户的最大发射功率。约束(19d)由(13)和(16)得到。由于所需的发射功率由带宽分配和卸载概率决定,因此可将其从优化变量中移除。最优解与输入(即大尺度信道增益和平均任务到达率)之间的关系表示为
π1 λ → β ∗ = α N ∗ x∗ α= αu 1 … αu K u αb 1 … αb K b T α ξ k = :,,,,,,其中(,,,,,),(α ξ 1,k,…, α ξ M,k) T, λ=(λu 1,…, λu K u, λb 1,…, λb K b) T, β=(β u 1 ,…, β u K u, β b 1 ,…, β b K b) T, β ξ k =(β ξ 1,k,…, β ξ M,k) T, N=(N u 1 ,…, N u K u, N b 1 ,…, N b K b) T, N ξ k =(N ξ 1,k,…, N ξ M,k) T, x= … … · (x u 1 ,, x u K u , x b 1 ,, x b K b) T,且() T表示转置操作符。
在实际中,用户可以同时订阅这两种服务。如果第 k 个用户同时订阅了这两种服务,则 λ u k 和 λ b k 分别表示超可靠低延迟通信和延迟容忍服务的平均任务到达率。这两种服务的大尺度信道增益相同,即 α u k = α b k 。在第 k个用户的本地服务器中,来自不同服务的数据包分别等待在两个独立的先来先服务队列中。(4)中每数据包的能耗变为 E loc k = k 0( C k) 2 (c u k +c b k) 。第 k个用户的发射功率约束变为P u k + P d k ≤ P max k 。其余约束保持不变。
请注意,用户关联由移动性管理实体管理,但资源分配和卸载概率由每个接入点。问题 P1被分解为两个子问题,分别在MME和接入点处以两种不同的时间尺度求解。在第一个子问题中,每个接入点在给定的用户关联方案下优化资源分配和卸载概率。在第二个子问题中,移动性管理实体使用深度学习算法优化用户关联方案,并考虑每个接入点的行为(即最优的资源分配和任务卸载策略)。
•问题 P2:优化子载波分配和卸载概率的问题可表述如下,
P2: min Nξ m,k,xξk max k∈Kξ ηξ k, (20) s.t.(19a),(19b),(19d),(19e),(19f), (1),(2),(7),(8),(11),(12),(14) and(15).
最优(N∗, x∗)与(α,λ, β)之间的关系表示为 π2:= α, λ, β → N∗, x∗。通过 π2实现的最小归一化能耗记为 Q∗ 2(α,λ, β|π2),这表明归一化能耗依赖于用户关联。
•问题 P3:优化用户关联方案的问题可以表述如下,
P3: min β ξ m,k Q ∗ 2(α,λ, β|π2), (21) s.t.(19c) 最优 β∗与 α,λ之间的关系表示为 π3:= α, λ→ β∗。通过 π3实现的最小归一化能耗记为Q ∗ 3(α, λ|π2, π3),其值也依赖于 π2。
E.深度学习的结构
值得注意的是, P2和 P3均为非凸的。我们将提出一种优化算法来求解问题 P2,并应用深度学习算法来求解问题 P3。
数字孪生支持的深度学习算法框架如图3所示。深度神经网络的输入是用户到接入点的大尺度信道增益以及所有用户的平均任务到达率,而深度神经网络的输出是用户关联方案。深度神经网络的直接输出ˆ表示为 β,基于该输出我们探索用户关联方案。对于每一种用户关联方案,可以从数字孪生中获得相应的归一化能耗。根据数字孪生的反馈,我们在依据探索策略随机生成的用户关联方案中,找到最小化归一化能耗的最佳用户˜关联方案 β。最后,输入 ˜ α,λ和最佳输出 β将被保存在内存中,用于训练深度神经网络。
五、求解问题 P2 的算法
在本节中,我们提出一种方法来求解问题 P2 的最优解。请注意,当用户关联方案给定时,问题 P2 可分解为多个单接入点问题。在本节中,为了符号简洁,我们省略了索引 m 。
A.算法概述
从问题 P2可以看出,只有约束(19b)和(19d)依赖于所有用户的优化变量,而其他约束仅依赖于单个用户的资源分配和卸载概率。为求解问题 P2,我们首先移除约束 (19b)和(19d),并将问题分解为多个单用户问题。在求解这些单用户问题后,我们检查约束(19b)和(19d)是否满足。该算法总结于表II中。
为了消除约束条件(19b),我们首先通过二分搜索找到最大归一化能耗的最小值。对于给定的 η th值,我们最小化为保证max k ∈ Kξ η ξ k ≤ η th所需的子载波总数,即
min N ξ k ,x ξ k ∑ k ∈ Ku N u k + ∑ k ∈ Kd N d k , (22)
s.t. max k ∈ Kξ η ξ k ≤ η th , (22a) (19a),(19d),(19e),(19f), (1),(2),(7),(8),(11),(12),(14) and(15).
面向移动边缘计算系统中混合5G服务的深度学习:学习自数字孪生
五、求解问题 P2 的算法
A.算法概述
如果所需的带宽大于 N max,则无法实现 ηth,且max k∈Kξ η ξ ξ k的最小值低于 ηth。通过二分搜索, ηth收敛到maxk∈Kξ η ξ k的最小值, 对应的带宽分配和卸载概率即为问题 P2的最优解(见 V‐C小节中的证明)。
在第二步中,我们移除约束(19d),并将问题(22)分解为多个单用户问题。对于每个单用户问题,我们通过二分搜索来寻找分配给每个用户的最小子载波数量。对于给定的 Nth , ξ k= Nth , ξ k,即
min x ξ k ηξ k, (23)
s.t. Nξ k= Nth,ξ , (23a) (19a),(19e),(19f), (1),(2),(7),(8),(11),(12),(14) and(15),
如果 η ξ k ≤ ηth,则 N ξ∗ k ≤ N th , ξ k 。否则, N ξ∗ k ≥ N th , ξ k (证明见第五‐C小节)。因此, N th , ξ k 要么收敛到N ξ k 的最小值,要么收敛到 Nmax(即η ξ k > ηth即使在 N ξ k =Nmax 下)。
在获得单用户问题的解后,我们需在表II的算法第 23行检查约束(19b)和(19d)是否满足。
如果在二分搜索结束时仍无法满足约束(19b)和(19d),则问题 P2不可行,且接入点无法保证与其关联的 所有用户的QoS需求。在这种情况下,用户关联方案在图 3的学习框架中的归一化能耗将被设为无穷大。由于 QoS需求无法满足,该用户关联方案不会用于训练深度神 经网络。
B.最优卸载概率
在本小节中,我们展示如何求解问题(23)。由于卸载概率依赖于带宽分配,我们将最优卸载概率表示为xˆ ξ k (N th , ξ k )。
1)URLLC服务:对于URLLC服务,卸载概率由小尺度信道增益的阈值 gth , u k决定。为了找到最优卸载概率,我们通过以下三个步骤优化 g th , u k ,以满足问题(23)中的 所有约束条件。
在第一步中,我们找到本地服务器每包能量消耗的最小值。由于归一化能耗随服务速率的增加而增加,我们首先确定满足端到端时延和排队时延违规概率约束(即(7)和(8))所需的最小服务速率。将 Dlc , u k Cu k代入(8),得到 ϵlq, u k> Dmax,u − cu k Cu k}。根据(6)中排队时延的互补累积分布函数,当 ϵlq , u k= ϵmax, u时可获得最小服务速率。我们将满足 Dlq , u k和 ϵlq , u k所需的最小服务速率记为 Cu∗ k。根据(4),本地服务器每包能量消耗的最小值为 Eloc , u∗ k= k0(C u∗ k)2cuk(焦耳/包)。
在第二步中,我们寻找满足解码错误概率和最大发射功率约束的最小值 g th , u k ,即(12)和(19f)中的 ϵd, u k ≤ 0.5ϵmax, u。通过在(1)中设置 TsR u k = bu k可得到解码错误概率。然后,满足 ϵ d , u k = 0.5ϵmax, u 所需的发射功率可表示如下:
P t,u k = 1 g th,u k ϱ, (24)
其中
ϱ= N th,u k WN0 αu k × [exp(√ 1 T s N th,u k W f −1 Q (0.5ϵ max,u )+ b u k ln2 T s N th,u k W) − 1], (25) 且应用了近似 V u k ≈ 1,当接收信噪比高于5dB时,该近似是准确的[31,32]。为了满足最大发射功率约束,可通过将(24)代入 P t , u k ,得到最小的 g th , u k = P max, u,即
g min,u k = 1 P max,u ϱ. (26)
在第三步中,我们推导出最小化归一化能量的最优阈值 gˆ th , u k 的闭式表达式
消耗。将 xuk= e−gth,u k和 P t,u k= 1 gth,u k ϱ代入(17)中 ηku的表达式,我们可以推导出 ηku关于 xuk的导数如下,
ηu′ k= e−gth,u buk Eloc,u∗ k − ϱTs gth,u k − ϱTs (gth,u k)2 . (27)
由(27)可知, ηu′ k的符号与f(gth, u k) Eloc, u∗ k − ϱTs gth,u k − ϱTs gth,u k()2相同。当 gth, u k → 0, f u gk th< 0 gth u k → ∞ f gth u k> 0 (,)时。当,,(,)时。此外, f(gth, u k)随 gth, u k严格递增。因此, ηku随 gth, u k先严格递减后严格递增,且存在唯一的 gth, u u k)= 0)。该 f(gth, u k)= 0 的解可推导如下:
g˜ th,u k= 1 2 ϱTs Eloc,u∗ k + √ √ Eloc,u∗ k)2 + 4 ϱTs Eloc,u∗ k .(28)
如果 g min , u k ≤ g˜ th, u k ,则 g˜ th , u k是最优阈值,可在满足发射功率约束的前提下使 ηku最小。否则,由于 ηku随 g th , u k在区域(g˜ th , u k ,∞)内增加, g min , u k是最优阈值。因此,我们得到
gˆ th,u k= max{g min,u k , g˜ th,u k}. (29) 将 gˆ th , u th , u k )= e−ˆg th,u k 。
2)延迟容忍服务:我们采用二分搜索来寻找满足问题(23)约束的延迟容忍服务的最优卸载概率。给定 Nth , b k ,通过将(2)中的 P t , b k = P max, b k和 E g b k)代入 E g b k) = xbk ¯bbk λb k /Ts,可得到满足(15)和(19f)中平均数据速率和最大发射功率约束的卸载概率上界。通过将 Cb k = C max , b =(1−xb k) λb k ¯cb k,可得到满足本地服务器在(14)中服务速率约束的卸载概率下界。令 x ub , b k和 x lb , b k 分别为卸载概率的上界和下界。如果 x lb , b k > x ub, b k ,则该问题是不可行的,这种情况可能发生在平均数据包到达率 λb k 较大时。当问题可行时,为了找到最优卸载概率 xˆb k( N th , b k)in[x lb,b k , x ub,b k],我们需要以下命题,
命题1. η b k 在(18)中关于 x b k 是凸的。
证明。见附录A中的证明。
然后,可通过二分搜索获得最小化η b k 的最优卸载概率 xˆ b k( N th , b k )。
C.算法的收敛性
在本小节中,我们首先证明对于归一化能耗的给定阈值 η th,表II中的算法可以找到实现该阈值所需的最小带宽(表II中的第4行到第22行)。
为了证明这一点,我们只需证明归一化能耗随着 Nth, ξ k的增加而减小。
性质1。在区域[N ub,ξ k , N lb,ξ k]内,目标函数(23)的最小值随着 Nth, ξ k的增大而减小。
证明。参见附录B中的证明。
上述性质表明,二分搜索会收敛到能够保证 ηk ≤ ηth的最小 Nth, ξ k ,除非该问题是不可行的(如表II的第20行所示)。
为了确定问题 P2是否可行,我们最小化子载波总数, 并检查其是否小于接入点的子载波总数。此外,我们还需要最小化总卸载概率,并检查其是否满足约束(19d)。2以下性质表明,最小化第 k个用户的卸载概率等价于最小化分配给该用户的子载波数量。
性质2。最优卸载概率 xˆξ k(Nth , ξ k )随 Nth , ξ k 增加而增加。
证明。见附录C中的证明。
因此,通过最小化子载波数量的总和,我们也得到了卸载概率总和的最小值。换句话说,子载波数量的总和以及MEC服务器上的工作负载均通过表II中第4行到第22行的算法实现最小化。因此,问题 P2是可行的当且仅当约束(19b)和(19d)在满足 Nth , ξ k(Nth , ξ k)时成立,即 表II中第23行的条件。
如果当归一化能耗等于 ηth时,问题 P2是可行的,则 ηth可实现,并且最小归一化能耗为 η∗ ≤ ηth。否则, η∗> ηth。因此,通过二分搜索(即第2、3行以及第23到27行), ηth收敛于 η∗。相应的Nth, ξ k和 xˆ ξ k( Nth , ξ k )收敛至最优解 N ξ∗ k和 x ξ∗ k 。
D.复杂度分析
给定归一化能耗ση所需的搜索精度,需要 O(log2( η ub σ η ))步来获得所有用户最大归一化能耗的最小值。为了实现目标 ηth Ku+ K b,需要()O(log2( N ub,ξ k σ N ))步来获得 K u + K b个用户的所需子载波数,其中 σ N是子载波数量的所需搜索精度。对于给定的子载波数量,需要 O(log2( 1 σ x ))步来获得最优卸载概率, 以最小化延迟容忍用户在区域[0, 1],内的归一化能耗,其中 σ x 是卸载概率的所需搜索精度。对于URLLC服务,最优卸载概率可以通过闭式表达式(29)得到。因此,该算法的复杂度可表示为(K u +K b )O(log2( η ub σ η )log2( N ub,ξ k σ N )log2( 1 σ x )),其随(K u + K b )线性增加。
其余约束在问题(23)的解中得到满足。
六、用户关联的深度学习
在本节中,我们讨论如何探索用户关联方案以及如何训练深度神经网络。
深度神经网络的所有权重和偏置的集合表示为 Θ={W[l], b[l], l= 1,…, Ldnn},,其中 Ldnn是层数, W[l]和 b[l]分别是第 l层中的权重和偏置。第 l层的输入与输出之间的关系可以表示为
Y[l]= fδ(W[l]X[l]+ b[l]), (30)
其中 X[l]和 Y[l]分别是第 l层的输入和输出,激活函数 fδ(x)是对向量的逐元素操作。在本研究中,我们使用 ReLU函数作为激活函数,即 fδ(x)= max(0, x)。
在每个学习周期中,ˆ系统会估计大尺度信道增益 α和平均任务到达率 λ,并利用这些信息通过具有ˆ参数Θ的深度神经网络计算 β 。根据深度神经网络的输出 β,按照探索策略生成用户关联方案。然后,我们找出能够最小化归一化能耗的最佳用户关联方案。将输入对α,λ以及最佳用户˜关联方案(记为 β)保存在内存中,用于训练深度神经网络。在该学习周期结束时,从内存中随机选取˜Nt个训练样本(α,λ, β)来训练深度神经网络。训练完成后,更新Θ以用于下一个学习周期。
A.深度神经网络的利用与探索
使用ReLU函数,深度神经网络的输出是连续变量,即 βˆ ξ k=(βˆ ξ 1,k,…, βˆ ξ M,k) T。我们首先讨论如何根据输出探索用户关联方案,并通过仿真验证探索策略对归一化能耗的影响。
1)最高值(利用):对于第 k个用户,将连续变量 βˆ ξ k映射为离散的用户关联方案的一种直接方法是接入具有最高输出的接入点。我们将具有最高输出的接入点的索引表示为 m∗ k = argmaxm∈M βˆ ξ m,k。然后, β ξ m∗ k ,k(0)= 1且 βˆ ξ m,k(0)= 0, ∀m ̸= m∗ 。该用户关联方案记为 β(0)。
2)单步探索:基于 β(0),我们改变其中一个 Ku+ Kb用户的关联方案,而其他用户的关联方案保持与β(0)相同。由于仅有一个用户更改方案,因此该方法被称为单步探索。通过此探索策略,每个用户可接入 M−1 个接入点,因此共有µOS=(K u + K b )(M−1)种可能的用户关联方案,记为 β(1)…, β(µOS)。不同于 β(0),[(k−1) (M−1)+m ∗ k]中 β[(k−1)(M −1)+ m]的第+m ∗ k]个元素为零。此外,如果 m< m ∗ k , β ξ m,k[(k−1)(M −1)+ m]= 1。如果 m> m ∗ k , β ξ m+1,k[(k − 1)(M − 1)+ m]= 1。
3)随机探索:在随机探索策略下,每个用户以概率 1/M从 M个接入点中随机选择一个。通过该方法生成的用户关联方案表示为 β(µOS + 1)…, β(µOS + µ RE),其中 µ RE是使用该方法生成的方案数量。
B.深度神经网络训练
从 1+µOS+µRE用户关联方案中,选择最小化归一化能耗的方案,˜β= argmini=0,1,…,µOS+µRE Q ∗ 2(α,λ, β(i)|π2), 并将其保存在内存中。内存在线性回合开始时为空, Θ中的参数初始值服从零均值正态分布。当内存满时,新获得的训练集(α,λ, β)将替换最旧的一个。
我们采用经验回放技术[33]来使用 Nt个训练样本训练深度神经网络。通过使用Adam算法更新 Θ中的参数[34]以减少训练损失函数,该函数定义为 L(Θ) = − 1 Nt∑ Nt nt=1[ β˜nt T βˆnt+ 1 − β˜nt T 1 − βˆnt]. ()log()()log()当 L(Θ)的值低于所需阈值 σL时,训练阶段结束。
训练阶段结束后,移动性管理实体可使用深度神经网络为任意 α、 λ计算用户关联方案。
七、仿真结果
A.仿真设置
图4展示了我们在仿真中将使用的真实网络拓扑。我们改变用户分布比率(定义为区域1的用户密度与区域2的用户密度之比),以观察用户分布对归一化能耗的影响。路径损耗模型为35.3+37.6 log10(d),其中 d是接入点与用户[35]之间的距离(米)。阴影效应服从标准差为8dB的对数正态分布。小尺度信道衰落遵循瑞利衰落。延迟容忍用户的分组到达率 λb k在5到10包/秒之间均匀分布。URLLC用户的分组到达率 λu k为500包/秒[36]。除非另有说明,仿真参数总结于表III中。
当使用单层神经网络来逼近某一策略时,所需神经元数量随所需精度[37]呈指数增长。通过增加层数,可以减少实现目标精度所需的神经元数量。在仿真过程中,我们尝试了不同数量的隐藏层以及每个隐藏层中的不同神经元数量,发现使用4个隐藏层且每层包含100个神经元时, DNN能够实现良好的性能。为了提升深度学习算法的性能,我们并未将 α和 λ作为DNN的输入,而是采用向量 [10 log( e λ ξ 1− 1 α ξ 1,1 + 1)…,10log( e λ ξ 1− 1 α ξ M,1 + 1)…,10log( eλ ξ K−1 αξ 1,K + 1)…,10log( eλ ξ K−1 αξ M,K + 1)]T,以大小为 M(Ku+ Kb)的 × 1作为输入。元素10log( eλ ξ k−1 αξ m,k + 1)反映了 α和 λ对每个用户的发射功率( dB)的影响,这在归一化能耗的目标函数中占主导地位。
输入层和输出层的神经元数量分别等于M(Ku+Kb)和 β的维度。我们将深度神经网络的学习率设置为0.001。每轮训练中的训练样本数量为 Nt= 128 ,内存最多可保存1024个训练样本[20]。该深度学习算法使用Python 和TensorFlow1.11实现。
B.最优带宽分配与卸载概率
在本小节中,我们展示了在给定用户关联方案下,通过最优带宽分配和卸载概率所实现的归一化能耗。在此情况下,我们仅需考虑单接入点场景。用户随机分布在接入点周围。由于目前尚无现有方法能够同时针对超可靠低延迟通信(URLLC)和延迟容忍服务优化带宽分配与卸载概率,我们将所提出的方法(标记为“提出的”)与两种基线方法进行比较。在第一种基线方法中,带宽分配与最优解相同,但所有数据包均被卸载到多接入边缘计算( MEC)(标记为“MEC”)。在第二种基线方法中,所有数据包均在本地服务器处理(标记为“本地”)。归一化能耗取决于用户位置和阴影效应。在本小节中,我们生成了200组输入α、λ,并计算平均归一化能耗。
归一化能耗如图5所示,其中URLLC用户数量等于延迟容忍用户数量 K b = K u。用户总数从10增加到26。结果表明,“MEC”方案的归一化能耗随着用户总数的增加而迅速上升。而“本地”方案的归一化能耗则如预期保持不变。与“MEC”相比,我们提出的方案可节省约89 %的归一化能耗方案相比“本地”方案节省了87%的归一化能耗。
C.用户关联的深度学习算法
在本小节中,我们展示了不同用户关联方案的归一化能耗,其中N max= 48、 S= 0.4 GHz和 Kb= Ku= 5。我们将提出的深度学习算法(图例标记为“DL”)与通过穷举搜索所有可能的用户关联方案得到的最优用户关联方案(图例标记为“Optimal”)进行了比较。为了显示非平稳环境对深度学习算法性能的影响,我们还提供了训练良好的DNN在用户密度变化时不进行更新情况下的性能表现(图例标记为“DLFixedDNN”)。在此方案中,不进行探索,直接将DNN的输出作为用户关联方案。一些类似的研究集中在单个接入点[10, 20]的卸载和资源分配问题上。这些研究对用户关联的隐含假设是:用户由最近的接入点或具有最高大尺度信道增益的接入点服务。此外,在[16]中提出了一种基于博弈论的方法来优化资源管理和用户关联。因此,我们将提出的方法与三种基线方法进行了比较:第一种基线方法中,用户由最近的接入点服务(图例标记为“NearestAP”);第二种基线方法中,用户连接到具有最高大尺度信道增益的接入点(图例标记为“Highest α”);第三种基线方法使用基于联盟博弈的博弈论方法[16]来迭代优化用户关联(图例标记为“ Game”)。根据[16],,我们将联盟数量设置为 M(即接入点数量),并随机选择用户执行Merge、Split和Exchange操作,优先选择更小的目标函数,如公式(21)所示。
我们提供了在不同数量接入点场景下的仿真结果: M= 2和 M= 3。当 M= 2时,可以通过穷尽搜索方法获得最优方案。然而,当 M= 3时,穷尽搜索方法的复杂度过高,无法获得最优方案。
为了展示深度学习算法的收敛性,我们在图6中给出了随着学习周期数增加训练损失函数 L(Θ)的值,其中用户分布比率设置为6:4。具有两个隐藏层的结果表明,如果层数过少,则深度神经网络无法收敛。为了找到合适的深度神经网络结构,我们从一个隐藏层的情况开始,逐步增加层数,直到深度神经网络能够收敛,即四个隐藏层。当 M= 2时,在4000个学习周期后, L(Θ)约为0.1。当 M= 3时, L(Θ)的下降速度比 M= 2场景更慢,因为算法在 M= 3时需要探索更大的可行域。在两种情况下, L(Θ)均逐渐下降并趋近于零。
最后1000个训练周期的归一化能耗平均值如图7所示,图例中显示了由两种探索策略生成的用户关联方案的数量,例如“DL{10, 100}”表示µ OS = 10, µ R E = 100。图7 的结果表明,我们提出的方案能够实现更小的归一化能耗。
与三种基线方法相比,能耗更低,并且性能接近最优方案。对于“Game”方案,其平均在100次迭代后收敛。如 [16],所示,该方案每次迭代需评估目标函数两次,意味着总共需要评估目标函数约200次。然而,我们提出的算法“DL{10, 100}”仅需探索(10+100)种用户关联方案,即评估目标函数110次,少于“Game”方案。因此,我们提出的算法能够在更低的计算复杂度下实现更低的归一化能耗。我们还可以观察到,与“Highest α”相比,直接利用DNN的输出而不进行任何探索即可节省约30%的归一化能耗。通过少量额外的探索,“DL{10, 100}”的性能可进一步提升。此外,与随机探索策略“DL{0, 100}”相比,单步探索策略“DL{10, 0}”能够以更少的探索次数实现更低的归一化能耗。这些结果表明,DNN的输出有助于提高探索策略的效率。
在图8中,我们研究了用户密度变化对提出的DL算法的影响。在数字孪生中,用户分布比率为5:5。经过1000次测试且用户分布为5:5后,真实网络中的用户分布比率变得不同,即9:1。MME需要根据用户分布的变化来更新DNN。具有用户分布变化的DL算法图例后标注了(5: 5 → 9:1)。对于其他曲线,用户分布比率保持恒定。归一化能耗为500次测试的平均归一化能耗。在每次测试中,用户的宏观信道增益和平均任务到达率均随机生成。从图8的结果可以看出,我们提出的DL算法‘DL{10, 100}(5:5 → 9:1)’在网络用户分布比例变化时(经过2000次测试后)能够调整 DNN,并相较于‘最优(5:5)’和‘最优(9:1)’获得令人满意的性能。为了进一步评估数字孪生的重要性,我们加入了图例‘深度学习固定DNN’,表示使用一个训练良好的DNN做出用户关联决策但不更新其参数 Θ。结果表明,当用户密度变化时,固定DNN的表现可能比基线方法‘最高 α’更差。这些结果表明,根据非平稳环境更新 DNN是必要的。
在具有3个接入点的场景中,不同方案实现的归一化能耗如表IV所示。我们将最后1000个epoch的归一化能耗平均值与“最近接入点”、“最高 α”和“深度学习”方案进行了比较。表IV的结果表明,“深度学习”方案相比“最近接入点”和“最高{v3}”方案分别节省了约72%和59%的归一化能耗。这一观察结果表明,当 M= 3时,我们提出的框架能够找到高效的用户关联方案。
VIII.结论
在这项工作中,我们研究了如何在移动边缘计算系统中降低具有超可靠低延迟通信和延迟容忍服务的用户的归一化能耗。我们提出了一种用于用户关联的深度学习架构,其中在中央服务器上建立了网络环境的数字孪生,以离线训练该算法。在训练阶段之后,将深度神经网络发送至管理用户关联的移动性管理实体。在给定的用户关联方案下,我们提出了一种低复杂度优化算法,用于优化每个接入点的资源分配和卸载概率。仿真结果表明,通过优化资源分配和卸载概率,我们的低复杂度算法相比基线方法可节省超过87%的能耗。此外,借助深度学习算法,我们的用户关联方案与现有方法相比,能够在降低归一化能耗的同时减少计算复杂度,并接近全局最优解。
2524

被折叠的 条评论
为什么被折叠?



