3、马尔可夫决策过程在参数不确定下的分析与实验

最新推荐文章于 2025-09-17 11:15:15 发布

js777

最新推荐文章于 2025-09-17 11:15:15 发布

阅读量40

点赞数

CC 4.0 BY-SA版权

分类专栏：探索计算机性能工程的新视角文章标签：马尔可夫决策过程参数不确定性值迭代

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/js777/article/details/149361710

探索计算机性能工程的新视角专栏收录该内容

33 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

马尔可夫决策过程在参数不确定下的分析与实验

1. 有界参数（半）马尔可夫决策过程的折扣奖励

该方法可应用于有界马尔可夫决策过程（BMDPs）以及有界半马尔可夫决策过程（BSMDPs），后者可通过计算预期奖励转化为 BMDPs。对于 BMDPs 的值迭代，定义如下：
对于 (P^{\varphi} {\leftrightarrow}) 和向量 (v)，有
[
f {\downarrow}(P^{a} {\leftrightarrow}(i\cdot), v) = \min {P \in P^{a} {\leftrightarrow}} (P(i\cdot)v) \text{ 和 } M {\downarrow}(P^{\varphi} {\leftrightarrow}, v) = \arg\min {P \in P^{\varphi} {\leftrightarrow}} (Pv)
]
其中 (P(i\cdot)) 是矩阵 (P) 中对应状态 (i) 的行。评估 (f {\downarrow}) 的计算量与 (P^{\varphi} {\uparrow}(i\cdot)) 行中非零元素的数量成正比，评估函数 (M {\downarrow}) 得到随机矩阵的计算量与 (P^{\varphi}_{\uparrow}) 中非零元素的数量成正比。

BMDPs 和 BSMDPs 的值迭代步骤如下：
1. 初始化 (v(0) \geq 0) 且 (k = 0)。
2. 对于每个 (i \in S)，计算

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。