非遍历马尔可夫奖励过程的基于组件的解决方案方法
1. 基本定义与性质
- 矩阵修改定义 :给定在状态空间 $S$ 上定义的矩阵 $P$ 以及状态子集 $\Phi \subseteq S$,$P[\Phi]$ 是一个修改后的矩阵,其中对应于状态 $s \in \Phi$ 的行被置为零。
- 过滤矩阵性质 :对于两个强连通分量(SCC)$z_a$ 和 $z_b$,且 $z_a \sim z_b$,过滤后的扩展马尔可夫链(EMC)矩阵 $P[S \setminus (z_a \cup z_b)]$ 是一个上三角矩阵(假设 $z_a$ 状态出现在 $z_b$ 状态之前)。这一性质基于 SCC 的定义,因为若存在转移 $t = \langle i, k, j \rangle \in T$ 且 $i \in z_a$ 且 $j \in z_b$,则不存在 $t’ = \langle i’, k’, j’ \rangle \in T$ 使得 $i’ \in z_b$ 且 $j’ \in z_a$。该矩阵结构允许通过对所有 $P$ 进行简单的反向替换或利用这种顺序性的更高效处理方案来求解线性系统。
2. 初始瞬态处理
- 概率计算 :我们关注到达具有最终状态的吸收组件的概率。由于凝聚有向无环图(DAG)$\chi$ 本质上描述了初始瞬态结构,我们可以将初始概率从 $z_0$ “向下推” 到最底层的 SCC 以计算最终状态的稳态解。设 $P$ 是马尔可夫奖励过程(MRP)$R$ 的 EMC 矩阵,$\pi_k$ 是 $R$ 在某
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



