【强化学习】三种基本的分层强化学习框架

分层的优点

  • 时间上的抽象(Temporal abstraction):可以考虑持续一段时间的策略
  • 迁移/重用性(Transfer/Reusability):把大问题分解为小问题后,小问题学习到的解决方法可以迁移到别的问题之上
  • 有效性/有意义(powerful/meaningful)-状态上的抽象(state abstraction):当前的状态中与所解决问题无关的状态不会被关注

不同的最优

  • 分层最优(Hierarchically optimal):遵循分层结构,但是每一个子部件不一定是局部最优
  • 回溯最优(recursively optimal):遵循分层结构,每一个子部件一定是局部最优
  • 平面最优(flat optimality):不受层级限制,只用最基本的动作去找到一个最优的策略,一般可以给出最多的选择

SMDP

  • 动作action可持续,持续时间(holding time/ transition time)为τ\tauτ,此期间状态不改变
  • 数学上也是用<S,A,P,R><\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R}><S,A,P,R>表示,但是在这段持续时间内存在不同的理解
    • P(s′,τ∣s,a)P(s',\tau|s,a)P(s,τs,a)
    • R=E[r∣s,a,s′,τ]R=E[r|s,a,s',\tau]R=E[rs,a,s,τ]

SMDP QL的基本形式

Vπ(s)=E{ rt+1+γrt+2+γ2rt+3+⋯∣st=s,π}V^\pi(s)=\mathbb{E}\{r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\cdots|s_t=s,\pi\}Vπ(s)=E{ rt+1+γrt+2+γ2rt+3+st=s,π}

Qπ(s,a)=E{ rt+1+γrt+2+γ2rt+3+⋯∣st=s,at=a,π}Q^\pi(s,a)=\mathbb{E}\{r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\cdots|s_t=s,a_t=a,\pi\}Qπ(s,a)=E{ rt+1+γrt+2+γ2rt+3+st=s,at=a,π}

Q(st,at)←Q(st,at)+α[rˉt+τ+γτmax⁡a′Q(st+τ,at+τ)−Q(st,at)]Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha[\bar{r}_{t+\tau}+\gamma^\tau\max_{a'}{Q(s_{t+\tau},a_{t+\tau})}-Q(s_t,a_t)]Q(st,at)Q(st,at)+α[

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值