37、利用子目标自动发现解决部分可观测马尔可夫决策过程

利用子目标自动发现解决部分可观测马尔可夫决策过程

1. 引言

强化学习(RL)是智能体在与动态环境进行试错交互中学习行为的问题。在马尔可夫决策过程(MDPs)中,所有状态都是完全可观测的,智能体可以仅根据当前的感官观察选择合适的动作。而在部分可观测马尔可夫决策过程(POMDPs)中,某些状态是隐藏的,智能体没有足够的感官观察,必须记住过去的感觉来选择合适的动作。

在MDPs中,已经提出了几种通过创建有用的子目标来加速学习性能的方法。子目标是具有高奖励梯度、在成功轨迹中频繁访问但在失败轨迹中不常访问,或者位于状态空间密集连接区域之间的状态。为了实现子目标,可以使用基于表格的策略,即技能。这些有用的技能在强化学习中被视为选项或宏动作。然而,当使用循环神经网络(RNN)来预测Q值时,直接应用这种方法到强化学习中是困难的。

本文提出了一种名为“利用子目标自动发现的强化学习”的方法,用于解决POMDPs问题。可以重用现有的算法来发现子目标,通过经验回放训练一个使用RNN的新策略来获得技能。一旦通过RNN获得了有用的技能,这些学习到的RNN将作为专家集成到主RNN中。实验结果表明,该方法使智能体能够获得与使用RNN的强化学习相当的策略,并且具有更好的学习性能。

2. 强化学习和循环神经网络

强化学习是学习如何行动以最大化数值奖励信号。学习者不像监督学习那样被告知要采取哪些行动,而是必须通过尝试来发现哪些行动能产生最大的奖励。强化学习允许软件智能体在特定上下文中自动确定其行为,以最大化其性能。智能体学习其行为需要简单的奖励反馈,这被称为强化信号。这种自动学习方案意味着几乎不需要了解应用领域的人类专家,也不需要像专家系统那样手工设计复杂的规则集。 </

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值