28、分层强化学习:原理、算法与应用

分层强化学习:原理、算法与应用

1. 引言

人工智能旨在理解和创造智能行为,而深度强化学习则致力于为日益复杂的顺序决策问题找到行为策略。人类在解决复杂任务时,擅长将其分解为更简单的子问题,逐一解决后再组合成整体解决方案。分层强化学习正是受这种现实世界问题解决方法的启发而产生的。

2. 分层强化学习示例:规划旅行

假设要去另一个城市拜访朋友,使用分层方法规划行程时,会将旅程分解为多个部分。首先走到衣柜拿东西,然后出门取自行车,前往火车站停放自行车,接着乘坐火车前往目的地城市,途中可能需要换乘以节省时间。到达后,朋友会在车站接应并开车送你到其家中。

而“扁平”强化学习方法则以单个脚步为行动单位,虽然能找到最优最短路线,但可能需要在大量可能的策略空间中进行搜索,规划过程会非常耗时。相比之下,分层方法利用了诸如骑自行车、坐火车等宏观动作,虽然规划出的路线可能不是最短的,但规划速度要快得多。

3. 问题结构的粒度

在分层强化学习中,抽象的粒度大于环境中原始动作的细粒度。例如,准备一顿饭时,我们会以“切洋葱”“煮意大利面”等大动作块来思考,而不是关注手部和手臂肌肉的具体动作。我们通过生成子目标和子策略来实现时间抽象,从而能够在不同时间尺度上思考动作,将宏观动作与原始动作混合使用。

3.1 分层方法的优点
  • 简化问题 :通过抽象将问题提升到更高的聚合层次,代理创建子目标并先解决细粒度的子任务,将动作抽象为更大的宏观动作。
  • 提高样本效率 :减少与环境的交互次数,因为子策略可以
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值