卫星姿态控制中的强化学习与机器人轨迹规划方法
1. 卫星姿态控制中的强化学习
在卫星姿态控制的强化学习领域,动力学模型学习以及通过规划生成的数据如何改进价值函数或策略更新是关键问题。随着时间和技能的发展,动态模型的基本模型逐渐变得复杂,模型学习能力的提升降低了有限数据的不确定性,增强了学习效果。
在基于模型的强化学习(MBRL)规划中,存在多种不同的应用方法。此次主要关注 d → g → i → j 部分,该过程融入了无模型(Model-Free)的思想,利用生成的数据更准确地表示时间差目标,以提高更新的准确性。这两种方法的主要思想对于提高数据利用率至关重要,是后续内容分析的基础。
1.1 基于模型的离线强化学习方法
许多 MBRL 系列方法是针对在线强化学习问题设计的,在面对现实世界问题或受限的批量数据时,仍需解决分布偏移问题。因此,将 MBRL 和离线强化学习(Offline RL)的技能和方法相结合成为必然趋势,也成为解决现实世界决策问题的新研究热点。
- MOPO 方法 :通过在离线环境中对 MBPO 和 Soft Actor-Critic(SAC)方法进行对比实验,研究发现基于模型的方法特别适用于批量设置环境。在此基础上,通过添加基于模型误差估计的奖励惩罚来修改马尔可夫决策过程(MDP),提出了基于模型的离线策略优化(MOPO)方法。该方法使用学习模型的预测方差估计模型误差,并在新的不确定性惩罚 MDP 中使用 MBPO 训练策略。
- MOReL 方法 :同样采用两阶段结构。首先提出一种新形式的 MDP:悲观 MDP(P
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



