利用子目标自动发现解决部分可观测马尔可夫决策过程
1. 引言
强化学习(RL)是智能体通过与动态环境进行试错交互来学习行为的问题。在马尔可夫决策过程(MDPs)中,所有状态都是完全可观测的,智能体仅根据当前的感官观察就能选择合适的动作。而在部分可观测马尔可夫决策过程(POMDPs)中,存在隐藏状态,智能体没有足够的感官观察,必须记住过去的感觉才能选择好的动作。Q - 学习是MDPs中从延迟强化中学习的最流行算法,而带有递归神经网络(RNN)的强化学习可以解决深度POMDPs问题。
为了加速MDPs中的学习性能,人们提出了创建有用子目标的方法。子目标是具有高奖励梯度、在成功轨迹中频繁访问但在失败轨迹中不访问,或者位于状态空间密集连接区域之间的状态。在MDPs中,可以使用基于表格的策略(技能)来实现子目标,这些技能在强化学习中被视为选项或宏动作。然而,当使用RNN来预测Q值时,直接应用这种方法到强化学习中是困难的。
本文提出了一种名为“利用子目标自动发现的强化学习”(RLSG)的方法,用于解决POMDPs问题。该方法可以重用现有的子目标发现算法,通过经验回放训练基于RNN的新策略来获得技能,将学习到的RNN作为专家集成到主RNN中。实验结果表明,该方法能使智能体获得与基于RNN的强化学习相当的策略,且具有更好的学习性能。
2. 强化学习和递归神经网络
强化学习是学习如何行动以最大化数值奖励信号。与监督学习不同,学习者需要通过尝试不同的动作来发现哪些动作能产生最多的奖励。强化学习允许软件智能体在特定上下文中自动确定其行为,以最大化其性能。简单的奖励反馈(强化信号)是智能体学习行为所必需的,这种自动学习方案减少了对领域专家的需求,也节省了设计解
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



