37、利用子目标自动发现解决部分可观测马尔可夫决策过程

饼干CSS

于 2025-11-01 10:51:10 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习前沿探秘文章标签：强化学习部分可观测马尔可夫决策过程子目标自动发现

本文链接：https://blog.youkuaiyun.com/j2k3l4/article/details/154562130

机器学习前沿探秘专栏收录该内容

44 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用子目标自动发现解决部分可观测马尔可夫决策过程

1. 引言

强化学习（RL）是智能体在与动态环境进行试错交互中学习行为的问题。在马尔可夫决策过程（MDPs）中，所有状态都是完全可观测的，智能体可以仅根据当前的感官观察选择合适的动作。而在部分可观测马尔可夫决策过程（POMDPs）中，某些状态是隐藏的，智能体没有足够的感官观察，必须记住过去的感觉来选择合适的动作。

在MDPs中，已经提出了几种通过创建有用的子目标来加速学习性能的方法。子目标是具有高奖励梯度、在成功轨迹中频繁访问但在失败轨迹中不常访问，或者位于状态空间密集连接区域之间的状态。为了实现子目标，可以使用基于表格的策略，即技能。这些有用的技能在强化学习中被视为选项或宏动作。然而，当使用循环神经网络（RNN）来预测Q值时，直接应用这种方法到强化学习中是困难的。

本文提出了一种名为“利用子目标自动发现的强化学习”的方法，用于解决POMDPs问题。可以重用现有的算法来发现子目标，通过经验回放训练一个使用RNN的新策略来获得技能。一旦通过RNN获得了有用的技能，这些学习到的RNN将作为专家集成到主RNN中。实验结果表明，该方法使智能体能够获得与使用RNN的强化学习相当的策略，并且具有更好的学习性能。

2. 强化学习和循环神经网络

强化学习是学习如何行动以最大化数值奖励信号。学习者不像监督学习那样被告知要采取哪些行动，而是必须通过尝试来发现哪些行动能产生最大的奖励。强化学习允许软件智能体在特定上下文中自动确定其行为，以最大化其性能。智能体学习其行为需要简单的奖励反馈，这被称为强化信号。这种自动学习方案意味着几乎不需要了解应用领域的人类专家，也不需要像专家系统那样手工设计复杂的规则集。 </

会员秒杀 ¥9.9 重磅福利

超级会员免费看