稀疏奖励强化学习与水下机器人化身的研究进展
1. 稀疏奖励强化学习中的 PlanQ 框架
在稀疏奖励强化学习领域,PlanQ 是一个备受关注的基于模型的强化学习(MBRL)框架,它有两种实例化形式:PlanQ(PDDM) 和 PlanQ(DDPG)。
1.1 超参数敏感性研究
对 PlanQ 的超参数敏感性研究主要围绕三个重要超参数展开:
- 视界长度 H :不同任务中,PlanQ 在不同的视界长度下能取得最佳结果。有趣的是,即使在同一任务中,PlanQ(PDDM) 和 PlanQ(DDPG) 达到最佳结果的视界长度也不同。当模型完美时,视界越长,规划结果越好。这表明在同一任务中,PlanQ(PDDM) 和 PlanQ(DDPG) 对学习到的模型精度不同,原因在于训练模型的数据集因不同的策略或规划器而有所差异。
- 采样候选动作数量 N :在所有测试任务中,PlanQ 的性能随着采样候选动作数量的增加而单调上升,直至达到上限。
- 噪声方差 σ :噪声方差对 PlanQ(DDPG) 策略网络采样的候选动作有影响。小噪声方差时,PlanQ(DDPG) 的性能与普通情况相似;大噪声方差时,性能下降。因为对于固定数量的采样候选动作,动作相对于策略网络输出的方差越大,智能体找到比策略网络输出更好动作的可能性就越小。
| 超参数 | 影响 |
|---|---|
| 视界长度 H < |
超级会员免费看
订阅专栏 解锁全文
1425

被折叠的 条评论
为什么被折叠?



