基于模型的强化学习自主导航与低轨卫星伪距定位探索
1. 基于模型的强化学习自主导航
1.1 算法性能对比
在自主赛车场景中,对MuZero和PPO两种算法进行了研究。PPO在约500万训练步时达到约43300的平均奖励。而MuZero在100万训练步后达到碰撞前33秒的峰值表现,且达到相似峰值性能时,MuZero的训练迭代次数约为PPO的五分之一。
1.2 训练方法优势
通过随机化训练赛道的方法,有效防止了强化学习(RL)智能体的过拟合问题。MuZero和PPO都展现出在未见过的赛道上提升性能的能力,体现了RL在不同赛道上的泛化能力。
1.3 连续版MuZero的问题
连续版MuZero在300万训练步中,奖励从 -1000 提升到 12000,但最终收敛到次优策略。推测原因是离散版MuZero初始化时先验接近均匀分布,能进行完全随机搜索和探索;而连续版输出正态分布,其随机的均值和标准差可能将搜索引导至局部最小值。
1.4 总结
研究首次探索了MuZero在自主导航中的能力,证明了将学习与规划相结合以匹配PPO在自主赛车场景中控制转向最终性能的可能性。同时,MuZero在训练效率上具有显著优势。
2. 低轨卫星伪距定位探索
2.1 背景与需求
全球导航卫星系统(GNSS)在定位、导航和授时(PNT)市场占据主导地位,但存在高能耗、抗欺骗和干扰能力差等缺点。低地球轨道(LEO)卫星系统成为有前景的替代方案,其信号更强,能实现更高定位精度,且许多LEO卫星星座提供双向通信。
超级会员免费看
订阅专栏 解锁全文
369

被折叠的 条评论
为什么被折叠?



