卫星姿态控制中的强化学习与机器人轨迹规划方法
1. 卫星姿态控制中的强化学习
在卫星姿态控制等实际问题中,强化学习方法发挥着重要作用。这里主要探讨基于模型的离线强化学习(Model-Based Offline RL)相关内容。
1.1 动力学模型学习与数据利用
在动力学模型学习过程中,随着时间和技能的发展,动态模型的基本模型会逐渐变得复杂。模型学习能力的提升能够减少有限数据的不确定性,增强学习效果。在基于模型的强化学习(MBRL)规划中,存在多种不同的应用方法,此次主要关注 d → g → i → j 这一部分。该过程引入了无模型(Model-Free)的思想,利用生成的数据更准确地表示时间差目标,从而提高更新的准确性。这两种方法的主要思想对于提高数据利用率至关重要,是后续内容分析的基础。
1.2 基于模型的离线 RL 方法
许多 MBRL 系列方法是在在线 RL 问题的背景下设计的,当面对现实世界问题或受限的批量数据时,它们仍需解决分布偏移问题。因此,将 MBRL 和离线 RL 的技能与方法相结合成为必然趋势,也成为解决现实世界决策问题的新研究热点。
以下是几种具体的基于模型的离线 RL 方法:
- Model-based Offline Policy Optimization (MOPO) :通过比较 MBPO 和 Soft Actor-Critic (SAC) 方法在离线环境中的实验,发现基于模型的方法特别适用于批量设置环境。MOPO 通过添加基于模型误差估计的奖励惩罚来修改马尔可夫决策过程(MDP),形成不确定性惩罚的 MDP。它利用学习模型的预测方差估计模
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



