分层的优点
- 时间上的抽象(Temporal abstraction):可以考虑持续一段时间的策略
- 迁移/重用性(Transfer/Reusability):把大问题分解为小问题后,小问题学习到的解决方法可以迁移到别的问题之上
- 有效性/有意义(powerful/meaningful)-状态上的抽象(state abstraction):当前的状态中与所解决问题无关的状态不会被关注
不同的最优
- 分层最优(Hierarchically optimal):遵循分层结构,但是每一个子部件不一定是局部最优
- 回溯最优(recursively optimal):遵循分层结构,每一个子部件一定是局部最优
- 平面最优(flat optimality):不受层级限制,只用最基本的动作去找到一个最优的策略,一般可以给出最多的选择
SMDP
- 动作action可持续,持续时间(holding time/ transition time)为τ\tauτ,此期间状态不改变
- 数学上也是用<S,A,P,R><\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R}><S,A,P,R>表示,但是在这段持续时间内存在不同的理解
- P(s′,τ∣s,a)P(s',\tau|s,a)P(s′,τ∣s,a)
- R=E[r∣s,a,s′,τ]R=E[r|s,a,s',\tau]R=E[r∣s,a,s′,τ]
SMDP QL的基本形式
Vπ(s)=E{ rt+1+γrt+2+γ2rt+3+⋯∣st=s,π}V^\pi(s)=\mathbb{E}\{r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\cdots|s_t=s,\pi\}Vπ(s)=E{ rt+1+γrt+2+γ2rt+3+⋯∣st=s,π}
Qπ(s,a)=E{ rt+1+γrt+2+γ2rt+3+⋯∣st=s,at=a,π}Q^\pi(s,a)=\mathbb{E}\{r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\cdots|s_t=s,a_t=a,\pi\}Qπ(s,a)=E{ rt+1+γrt+2+γ2rt+3+⋯∣st=s,at=a,π}
Q(st,at)←Q(st,at)+α[rˉt+τ+γτmaxa′Q(st+τ,at+τ)−Q(st,at)]Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha[\bar{r}_{t+\tau}+\gamma^\tau\max_{a'}{Q(s_{t+\tau},a_{t+\tau})}-Q(s_t,a_t)]Q(st,at)←Q(st,at)+α[

最低0.47元/天 解锁文章
1640

被折叠的 条评论
为什么被折叠?



