马尔可夫决策过程在参数不确定下的分析与实验
1. 有界参数(半)马尔可夫决策过程的折扣奖励
该方法可应用于有界马尔可夫决策过程(BMDPs)以及有界半马尔可夫决策过程(BSMDPs),后者可通过计算预期奖励转化为 BMDPs。对于 BMDPs 的值迭代,定义如下:
对于 (P^{\varphi} {\leftrightarrow}) 和向量 (v),有
[
f {\downarrow}(P^{a} {\leftrightarrow}(i\cdot), v) = \min {P \in P^{a} {\leftrightarrow}} (P(i\cdot)v) \text{ 和 } M {\downarrow}(P^{\varphi} {\leftrightarrow}, v) = \arg\min {P \in P^{\varphi} {\leftrightarrow}} (Pv)
]
其中 (P(i\cdot)) 是矩阵 (P) 中对应状态 (i) 的行。评估 (f {\downarrow}) 的计算量与 (P^{\varphi} {\uparrow}(i\cdot)) 行中非零元素的数量成正比,评估函数 (M {\downarrow}) 得到随机矩阵的计算量与 (P^{\varphi}_{\uparrow}) 中非零元素的数量成正比。
BMDPs 和 BSMDPs 的值迭代步骤如下:
1. 初始化 (v(0) \geq 0) 且 (k = 0)。
2. 对于每个 (i \in S),计算
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



