【强化学习】三种基本的分层强化学习框架

最新推荐文章于 2025-11-09 16:10:55 发布

原创

最新推荐文章于 2025-11-09 16:10:55 发布 · 4.7k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习

分层的优点

时间上的抽象（Temporal abstraction）：可以考虑持续一段时间的策略
迁移/重用性（Transfer/Reusability）：把大问题分解为小问题后，小问题学习到的解决方法可以迁移到别的问题之上
有效性/有意义（powerful/meaningful）-状态上的抽象（state abstraction）：当前的状态中与所解决问题无关的状态不会被关注

不同的最优

分层最优（Hierarchically optimal）：遵循分层结构，但是每一个子部件不一定是局部最优
回溯最优(recursively optimal)：遵循分层结构，每一个子部件一定是局部最优
平面最优(flat optimality)：不受层级限制，只用最基本的动作去找到一个最优的策略，一般可以给出最多的选择

SMDP

动作action可持续，持续时间（holding time/ transition time）为 $τ\tau$ ，此期间状态不改变
数学上也是用 $<S,A,P,R><\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R}>$ 表示，但是在这段持续时间内存在不同的理解
- $P(s′,τ∣s,a)P(s',\tau|s,a)$
- $R=E[r∣s,a,s′,τ]R=E[r|s,a,s',\tau]$

SMDP QL的基本形式

$rt+1+γrt+2+γ2rt+3+⋯∣st=s,π}V^\pi(s)=\mathbb{E}\{r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\cdots|s_t=s,\pi\}$

$rt+1+γrt+2+γ2rt+3+⋯∣st=s,at=a,π}Q^\pi(s,a)=\mathbb{E}\{r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\cdots|s_t=s,a_t=a,\pi\}$

$Q(st,at)←Q(st,at)+α[rˉt+τ+γτmax⁡a′Q(st+τ,at+τ)−Q(st,at)]Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha[\bar{r}_{t+\tau}+\gamma^\tau\max_{a'}{Q(s_{t+\tau},a_{t+\tau})}-Q(s_t,a_t)]$