本文针对曼哈顿V2V网络中长期性能,通过结合信息年龄的资源管理进行了优化。通过观察每个时隙的全局网络状态,RSU将为VUE对分配频带并调度包的传输。本文将随机决策过程建模为一个离散时间MDP。技术难题包括:交通信息到达的高移动性和时变性带来的最优控制问题。解法为,首先将原始MDP分解为一系列VUE对的MDP。对于VUE在局部网络状态空间中的部分可观测性和高维诅咒,通过基于LSTM和DQN的算法加以解决。利用该算法,RSU根据部分观测在每个调度时隙以分布式的方式进行最优频带分配和分组调度。
介绍
V2V很重要,但RRM(无线资源管理)是一个问题,有很多人尝试解决,但研究都集中在即使性能优化上,而忽略了网络的动态性,如通信质量和交通信息的时空变化。
MDP被广泛用于V2V网络长期RRM中,有很多人尝试用基于学习的方法加以解决,但都没有考虑车辆的移动性,因为移动性提供了在不同组的VUE对之间共享频率的可能性。【其实这里就和基于重用距离的资源共享相似了】
本文已曼哈顿V2V为场景,设定交通信息时变,结合AoI(信息年龄)对系统长期性能进行了优化,本文主要贡献如下:
- 将RRM问题建模为单代理MDP,RSU周期性地对频带分配和分组调度进行规划,以优化VUE对的长期性能
- 为处理VUE对增加带来的决策动作空间过大的问题,将MDP分解
- 为解决移动性导致局部状态空间大的问题,假设VUE仅可观察部分环境,通过LSTM和DRL手段使用部分观测获取最优行动。算法使用在RSU的离线集中训练,和VUE的分布式测试。
系统描述
网络和信道模型
如上图所示,车辆密度一定,有K个VUE对,共享B个正交频带,时间被分成时隙(每个时隙长,用j编号)
信道模型分为三类:LOS,WLOS(两车在临近交叉口l内的垂直道上),NLOS。用表示信道状态,k表示VUE对的编号,j表示时隙编号。
AoI 的评估
发送端在每个预分配时隙的开端&#x