马尔可夫决策过程与模拟算法:理论、方法与实践
马尔可夫决策过程的优化准则
在之前的情况中,我们通常会为问题设定特定的折扣率或有限的时间范围。然而,当不存在折扣且时间范围为无限时,就需要不同的优化准则,下面将对这些准则进行概述,并与前面讨论过的准则进行比较。
折扣奖励过程的两种等价观点
- 无限时间范围,有折扣 :折扣因子为 $\gamma$,$U_t = \sum_{k = 0}^{\infty} \gamma^k r_{t + k}$,则 $E U_t = \sum_{k = 0}^{\infty} \gamma^k E r_{t + k}$。
- 几何时间范围,无折扣 :在每一步 $t$,过程以概率 $1 - \gamma$ 终止,$U_T^t = \sum_{k = 0}^{T - t} r_{t + k}$,其中 $T \sim Geom(1 - \gamma)$,同样有 $E U_t = \sum_{k = 0}^{\infty} \gamma^k E r_{t + k}$。
定义 $V_{\gamma}^{\pi}(s) \triangleq E(U_t | s_t = s)$,表示在策略 $\pi$ 下,从状态 $s$ 开始的期望总奖励。
期望总奖励准则
$V_{t}^{\pi, T} \triangleq E_{\pi} U_T^t$,$V^{\pi} \triangleq \lim_{T \to \infty} V^{\pi, T}$。在处理极限情况时,需要考虑一些条件:
超级会员免费看
订阅专栏 解锁全文
3465

被折叠的 条评论
为什么被折叠?



