34、可复用的风险感知随机抽象策略

可复用的风险感知随机抽象策略

1. 随机最短路径问题

随机最短路径(SSP)问题是马尔可夫决策过程(MDP)的一个特殊情况。它有一个唯一的目标状态 ( s_G \in S ),且该目标状态是一个吸收状态,即对于所有的动作 ( a \in A ),有 ( r(s_G, a) = 0 ) ,并且 ( T_a(s_G, s_G) = 1 ) 。此外,除了目标状态 ( s_G ) 之外,每个状态的奖励函数为负且恒定,固定为 -1。

假设决策者希望最小化到达目标状态 ( s_G ) 的步数。在这种情况下,每个历史 ( h ) 可以用其转移次数 ( |h| ) 来概括,因为:
[ R(h) = -(1 + \gamma + \gamma^2 + \cdots + \gamma^{|h|-1}) ]

当 ( \gamma < 1 ) 时:
[ R(h) = -\frac{1 - \gamma^{|h|}}{1 - \gamma} = \alpha e^{\eta |h|} - \alpha ]
其中 ( \alpha = \frac{1}{1 - \gamma} ) , ( \eta = \ln \gamma ) 。由于 ( \eta < 0 ) ,即使历史 ( h ) 是无限长的,该表达式仍然成立(此时 ( R(h) = -\alpha ) )。实际上,在这种情况下 ( -\alpha \leq R(h) \leq 0 ) ,因此对于每个策略, ( E[R(h)] ) 都存在且有限。

如果 ( \gamma = 1 ) ,则 ( R(h) = -|h| ) 。此时, ( E[R(h)] ) 有限性的证明依赖于进一步的条件。如果存在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值