29、基于模型的强化学习自主导航与低轨卫星伪距定位探索

基于模型的强化学习自主导航与低轨卫星伪距定位探索

1. 基于模型的强化学习自主导航

1.1 算法性能对比

在自主赛车场景中,对MuZero和PPO两种算法进行了研究。PPO在约500万训练步时达到约43300的平均奖励。而MuZero在100万训练步后达到碰撞前33秒的峰值表现,且达到相似峰值性能时,MuZero的训练迭代次数约为PPO的五分之一。

1.2 训练方法优势

通过随机化训练赛道的方法,有效防止了强化学习(RL)智能体的过拟合问题。MuZero和PPO都展现出在未见过的赛道上提升性能的能力,体现了RL在不同赛道上的泛化能力。

1.3 连续版MuZero的问题

连续版MuZero在300万训练步中,奖励从 -1000 提升到 12000,但最终收敛到次优策略。推测原因是离散版MuZero初始化时先验接近均匀分布,能进行完全随机搜索和探索;而连续版输出正态分布,其随机的均值和标准差可能将搜索引导至局部最小值。

1.4 总结

研究首次探索了MuZero在自主导航中的能力,证明了将学习与规划相结合以匹配PPO在自主赛车场景中控制转向最终性能的可能性。同时,MuZero在训练效率上具有显著优势。

2. 低轨卫星伪距定位探索

2.1 背景与需求

全球导航卫星系统(GNSS)在定位、导航和授时(PNT)市场占据主导地位,但存在高能耗、抗欺骗和干扰能力差等缺点。低地球轨道(LEO)卫星系统成为有前景的替代方案,其信号更强,能实现更高定位精度,且许多LEO卫星星座提供双向通信。

2.2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值