强化学习在网络切片优化与虚拟网络嵌入中的应用
1. 转移强化学习辅助的网络切片优化
1.1 状态、动作与奖励函数定义
- 状态定义 :环境状态由设备信息和数据包信息构成。设备信息涵盖扩频因子(SF)、发射功率(TP)、带宽(BW)和能耗(ENY);数据包信息包括信噪比(SNR)、接收信号强度指示(RSSI)和单位时间内的数据包总数(Num)。这些值以独热编码形式表示,即 $S = (\overline{SF}, \overline{TP}, \overline{BW}, \overline{ENY}, \overline{SNR}, \overline{RSSI}, \overline{Num})$,且均为一段时间内的平均值。
- 动作定义 :动作定义为 $A = (SF, TP)$。在 LoRa 中,SF 的取值范围是 ${7, 8, 9, 10, 11, 12}$,TP 的取值范围是 ${2, 5, 8, 11, 14}$ dBm,因此动作空间中有 30 个动作。
- 奖励函数 :优化目标需同时考虑吞吐量、能源效率和可靠性,奖励函数定义为 $R(a, s) = u_{Dj,g} = \alpha u_{Dj,g}^{QoS} + \beta u_{Dj,g}^{EE} + \gamma u_{Dj,g}^{REL}$,其中 $\alpha$、$\beta$ 和 $\gamma$ 是系统权重参数,不同值表示对切片 QoS 要求的不同偏好。例如,在 URA 切片中应采用较大的 $\gamma$ 以提高传输可靠性。
超级会员免费看
订阅专栏 解锁全文
3352

被折叠的 条评论
为什么被折叠?



