24、混合可观测性下的分层强化学习

混合可观测性下的分层强化学习

1. 分层结构概述

分层强化学习在混合可观测性环境中具有独特的优势,其主要分为顶层和底层策略。
- 顶层策略 :顶层POMDP(部分可观测马尔可夫决策过程)$P_T$由$(S, A_T = X, T_T, R_T, \Omega_T, O_T, \gamma)$定义。其中,动作空间$X$是目标空间,顶层策略$\pi_T(\cdot | o_T)$会输出期望状态$x_g$,由底层策略$\pi_X$来实现。顶层转移函数$T_T(s, a_T, s’)$可表示为多时间模型:
[T_T(s, a_T, s’) = \sum_{m = 1}^{k} p(s’, m | s, a_T)]
这里$p(s’, m | s, a_T)$是底层策略$\pi_X$从状态$s$出发,为实现目标$a_T$,在执行$m$个原始动作后终止于状态$s’$的概率。顶层策略的目标是优化折扣累积奖励$\sum_{t = 0; t += k}^{\infty} \gamma^{t/k} R_T(s_t, a_T^t)$,其中$R_T(s_t, a_T^t)$是底层策略$\pi_X$从状态$s_t$出发,执行$k$个时间步以实现目标$a_T^t$时的期望累积环境奖励。顶层观测$o_T$是底层策略在控制交还给顶层策略之前获得的动作和观测序列。
- 底层策略 :底层策略在具有稀疏奖励的完全可观测系统中行动,使用目标重标记技术从经验回放缓冲区中采样的转移进行学习。目标重标记是一种常用且强大的技术,用于在稀疏奖励环境中学习。具体来说,对于未达到目标$x_g$但达到了$x’_g$的底层转移$(x, a, x’, r, x_g)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值