分层概率模型的抽象细化:解决hMDP问题
1. 引言
在许多实际应用中,如机器人能源消耗预测、作业调度等,常常会遇到需要处理分层马尔可夫决策过程(hMDP)的情况。本文将介绍一种通过抽象细化来解决hMDP问题的方法,该方法可以有效计算hMDP中的最优期望奖励。
2. 形式化问题陈述
为了提出问题陈述,我们先对马尔可夫决策过程(MDP)和分层马尔可夫决策过程(hMDP)进行形式化定义,然后确定一类被称为局部策略hMDP的子类,并将问题限制在计算局部策略hMDP中的最优期望奖励。此外,还引入了参数化MDP,它是后续抽象细化过程的关键。
2.1 背景
- 参数化MDP(pMDP) :参数化MDP是一个元组$M = \langle S_M, A_M, \iota_M, \vec{x}, P_M, r_M, T_M \rangle$,其中$S_M$是有限状态集,$A_M$是有限动作集,$\iota_M$是初始状态,$\vec{x} = \langle x_0, \ldots, x_n \rangle$是参数向量,$P_M : S_M \times A_M \times S_M \to Q[\vec{x}]$是转移概率,$r_M : S \to Q[\vec{x}]$是状态奖励,$T_M$是目标状态集。
- 赋值与实例化 :对于参数赋值$u \in R^{\vec{x}}$,实例化$M[u]$将$P_M(s, a, s’)$替换为$P_M(s, a, s’)(u)$,$r_M(s)$替换为$r_M(s)(u)$。若$M(u)$构成一
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



