16、利用子目标自动发现解决部分可观测马尔可夫决策过程

利用子目标自动发现解决部分可观测马尔可夫决策过程

1. 引言

强化学习(RL)是智能体通过与动态环境进行试错交互来学习行为的问题。在马尔可夫决策过程(MDPs)中,所有状态都是完全可观测的,智能体仅根据当前的感官观察就能选择合适的动作。而在部分可观测马尔可夫决策过程(POMDPs)中,存在隐藏状态,智能体没有足够的感官观察,必须记住过去的感觉才能选择好的动作。Q - 学习是MDPs中从延迟强化中学习的最流行算法,而带有递归神经网络(RNN)的强化学习可以解决深度POMDPs问题。

为了加速MDPs中的学习性能,人们提出了创建有用子目标的方法。子目标是具有高奖励梯度、在成功轨迹中频繁访问但在失败轨迹中不访问,或者位于状态空间密集连接区域之间的状态。在MDPs中,可以使用基于表格的策略(技能)来实现子目标,这些技能在强化学习中被视为选项或宏动作。然而,当使用RNN来预测Q值时,直接应用这种方法到强化学习中是困难的。

本文提出了一种名为“利用子目标自动发现的强化学习”(RLSG)的方法,用于解决POMDPs问题。该方法可以重用现有的子目标发现算法,通过经验回放训练基于RNN的新策略来获得技能,将学习到的RNN作为专家集成到主RNN中。实验结果表明,该方法能使智能体获得与基于RNN的强化学习相当的策略,且具有更好的学习性能。

2. 强化学习和递归神经网络

强化学习是学习如何行动以最大化数值奖励信号。与监督学习不同,学习者需要通过尝试不同的动作来发现哪些动作能产生最多的奖励。强化学习允许软件智能体在特定上下文中自动确定其行为,以最大化其性能。简单的奖励反馈(强化信号)是智能体学习行为所必需的,这种自动学习方案减少了对领域专家的需求,也节省了设计解

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值