可复用的风险感知随机抽象策略
1. 随机最短路径问题
随机最短路径(SSP)问题是马尔可夫决策过程(MDP)的一个特殊情况。它有一个唯一的目标状态 ( s_G \in S ),且该目标状态是一个吸收状态,即对于所有的动作 ( a \in A ),有 ( r(s_G, a) = 0 ) ,并且 ( T_a(s_G, s_G) = 1 ) 。此外,除了目标状态 ( s_G ) 之外,每个状态的奖励函数为负且恒定,固定为 -1。
假设决策者希望最小化到达目标状态 ( s_G ) 的步数。在这种情况下,每个历史 ( h ) 可以用其转移次数 ( |h| ) 来概括,因为:
[ R(h) = -(1 + \gamma + \gamma^2 + \cdots + \gamma^{|h|-1}) ]
当 ( \gamma < 1 ) 时:
[ R(h) = -\frac{1 - \gamma^{|h|}}{1 - \gamma} = \alpha e^{\eta |h|} - \alpha ]
其中 ( \alpha = \frac{1}{1 - \gamma} ) , ( \eta = \ln \gamma ) 。由于 ( \eta < 0 ) ,即使历史 ( h ) 是无限长的,该表达式仍然成立(此时 ( R(h) = -\alpha ) )。实际上,在这种情况下 ( -\alpha \leq R(h) \leq 0 ) ,因此对于每个策略, ( E[R(h)] ) 都存在且有限。
如果 ( \gamma = 1 ) ,则 ( R(h) = -|h| ) 。此时, ( E[R(h)] ) 有限性的证明依赖于进一步的条件。如果存在
超级会员免费看
订阅专栏 解锁全文
1210

被折叠的 条评论
为什么被折叠?



