16、利用子目标自动发现解决部分可观测马尔可夫决策过程

最新推荐文章于 2025-11-01 10:51:10 发布

饼干CSS

最新推荐文章于 2025-11-01 10:51:10 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习前沿探秘文章标签：强化学习部分可观测马尔可夫决策过程 POMDPs

本文链接：https://blog.youkuaiyun.com/j2k3l4/article/details/154562019

机器学习前沿探秘专栏收录该内容

44 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用子目标自动发现解决部分可观测马尔可夫决策过程

1. 引言

强化学习（RL）是智能体通过与动态环境进行试错交互来学习行为的问题。在马尔可夫决策过程（MDPs）中，所有状态都是完全可观测的，智能体仅根据当前的感官观察就能选择合适的动作。而在部分可观测马尔可夫决策过程（POMDPs）中，存在隐藏状态，智能体没有足够的感官观察，必须记住过去的感觉才能选择好的动作。Q - 学习是MDPs中从延迟强化中学习的最流行算法，而带有递归神经网络（RNN）的强化学习可以解决深度POMDPs问题。

为了加速MDPs中的学习性能，人们提出了创建有用子目标的方法。子目标是具有高奖励梯度、在成功轨迹中频繁访问但在失败轨迹中不访问，或者位于状态空间密集连接区域之间的状态。在MDPs中，可以使用基于表格的策略（技能）来实现子目标，这些技能在强化学习中被视为选项或宏动作。然而，当使用RNN来预测Q值时，直接应用这种方法到强化学习中是困难的。

本文提出了一种名为“利用子目标自动发现的强化学习”（RLSG）的方法，用于解决POMDPs问题。该方法可以重用现有的子目标发现算法，通过经验回放训练基于RNN的新策略来获得技能，将学习到的RNN作为专家集成到主RNN中。实验结果表明，该方法能使智能体获得与基于RNN的强化学习相当的策略，且具有更好的学习性能。