30、非遍历马尔可夫奖励过程的基于组件的解决方案方法

非遍历马尔可夫奖励过程的基于组件的解决方案方法

1. 基本定义与性质
  • 矩阵修改定义 :给定在状态空间 $S$ 上定义的矩阵 $P$ 以及状态子集 $\Phi \subseteq S$,$P[\Phi]$ 是一个修改后的矩阵,其中对应于状态 $s \in \Phi$ 的行被置为零。
  • 过滤矩阵性质 :对于两个强连通分量(SCC)$z_a$ 和 $z_b$,且 $z_a \sim z_b$,过滤后的扩展马尔可夫链(EMC)矩阵 $P[S \setminus (z_a \cup z_b)]$ 是一个上三角矩阵(假设 $z_a$ 状态出现在 $z_b$ 状态之前)。这一性质基于 SCC 的定义,因为若存在转移 $t = \langle i, k, j \rangle \in T$ 且 $i \in z_a$ 且 $j \in z_b$,则不存在 $t’ = \langle i’, k’, j’ \rangle \in T$ 使得 $i’ \in z_b$ 且 $j’ \in z_a$。该矩阵结构允许通过对所有 $P$ 进行简单的反向替换或利用这种顺序性的更高效处理方案来求解线性系统。
2. 初始瞬态处理
  • 概率计算 :我们关注到达具有最终状态的吸收组件的概率。由于凝聚有向无环图(DAG)$\chi$ 本质上描述了初始瞬态结构,我们可以将初始概率从 $z_0$ “向下推” 到最底层的 SCC 以计算最终状态的稳态解。设 $P$ 是马尔可夫奖励过程(MRP)$R$ 的 EMC 矩阵,$\pi_k$ 是 $R$ 在某
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值