利用人工智能推动5G移动通信迈向6G:强化学习与深度学习的应用
强化学习算法在公平导向的OFDMA调度器中的应用
为了解决调度中的用户公平性问题,研究人员开发了基于强化学习的系统。对于PF调度器,该框架使用前馈神经网络系统将瞬时状态转化为合适的参数选择。为了增加下一代移动网络(NGMN)公平性标准满足的时间比例(以传输时间间隔TTIs衡量),采用了基于强化学习的解决方案。该方案会在每个瞬时状态下学习广义PF(GPF)参数化。
提出的强化学习框架与调度器环境进行交互,通过大量迭代不断优化GPF参数化方案的选择。所开发的强化学习方法会将神经网络权重作为非线性函数进行更新,直到满足基于误差的收敛标准。为了可靠且快速地确定GPF参数,提高NGMN公平性供应,研究旨在使用一系列强化学习技术训练非线性函数,并提出了满足下行OFDMA系统NGMN公平性标准的调度框架。
在模拟过程中,使用了RRM - Scheduler模拟器,它是基于长期演进模拟器(LTE - Sim)的C++实用程序,增加了诸如先进的OFDMA调度器、应用于各种调度问题的强化学习算法、用于强化学习决策的神经网络近似以及CQI压缩技术等新特性。采用的强化学习算法包括Q - Learning、DQ - Learning、SARSA、QV、QV2、QVMAX、QVMAX2和ACLA等。每种强化学习方法在每个TTI都需要训练总共11个神经网络。
模拟持续约3000秒,所有强化学习技术在相同的网络设置(即信道条件、用户活动和队列中的数据配额)下进行学习步骤。考虑的可用资源块总数B = 100,系统带宽为20 MHz。模拟中考虑了一个由七个小区组成的集群,半径为1 km。在中心小区评估调度性能,而干扰水平由其他小区提
超级会员免费看
订阅专栏 解锁全文
43

被折叠的 条评论
为什么被折叠?



