利用子目标自动发现解决部分可观测马尔可夫决策过程
1. 引言
强化学习(RL)是智能体在与动态环境进行试错交互中学习行为的问题。在马尔可夫决策过程(MDPs)中,所有状态都是完全可观测的,智能体可以仅根据当前的感官观察选择合适的动作。而在部分可观测马尔可夫决策过程(POMDPs)中,某些状态是隐藏的,智能体没有足够的感官观察,必须记住过去的感觉来选择合适的动作。
在MDPs中,已经提出了几种通过创建有用的子目标来加速学习性能的方法。子目标是具有高奖励梯度、在成功轨迹中频繁访问但在失败轨迹中不常访问,或者位于状态空间密集连接区域之间的状态。为了实现子目标,可以使用基于表格的策略,即技能。这些有用的技能在强化学习中被视为选项或宏动作。然而,当使用循环神经网络(RNN)来预测Q值时,直接应用这种方法到强化学习中是困难的。
本文提出了一种名为“利用子目标自动发现的强化学习”的方法,用于解决POMDPs问题。可以重用现有的算法来发现子目标,通过经验回放训练一个使用RNN的新策略来获得技能。一旦通过RNN获得了有用的技能,这些学习到的RNN将作为专家集成到主RNN中。实验结果表明,该方法使智能体能够获得与使用RNN的强化学习相当的策略,并且具有更好的学习性能。
2. 强化学习和循环神经网络
强化学习是学习如何行动以最大化数值奖励信号。学习者不像监督学习那样被告知要采取哪些行动,而是必须通过尝试来发现哪些行动能产生最大的奖励。强化学习允许软件智能体在特定上下文中自动确定其行为,以最大化其性能。智能体学习其行为需要简单的奖励反馈,这被称为强化信号。这种自动学习方案意味着几乎不需要了解应用领域的人类专家,也不需要像专家系统那样手工设计复杂的规则集。 </
超级会员免费看
订阅专栏 解锁全文
2485

被折叠的 条评论
为什么被折叠?



