5、马尔可夫决策过程中的状态聚合与等价关系研究

马尔可夫决策过程状态聚合与等价关系研究

最新推荐文章于 2025-10-16 14:27:25 发布

js777

最新推荐文章于 2025-10-16 14:27:25 发布

阅读量48

点赞数

CC 4.0 BY-SA版权

分类专栏：探索计算机性能工程的新视角文章标签：马尔可夫决策过程状态聚合 CTMDPs

本文链接：https://blog.youkuaiyun.com/js777/article/details/149361722

探索计算机性能工程的新视角专栏收录该内容

33 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

马尔可夫决策过程中的状态聚合与等价关系研究

1. CTMDPs的有界聚合分析

在CTMDPs（连续时间马尔可夫决策过程）的研究中，有界聚合是一种重要的方法。通过对不同种群规模下的CTMDPs模型进行分析，得到了一系列有价值的结果。

对种群规模为3、5和7的情况进行分析，分别得到具有25、61和113个状态的CTMDPs，对应的BMDPs（有界参数马尔可夫决策过程）状态空间包含10、21和36个状态。具体结果如下表所示：
| 状态数 | 平均情况（TrivL） | 平均情况（ImprL） | 平均情况（Exact） | 平均情况（ImprU） | 平均情况（TrivU） | 平均情况（Ratio） | 折扣情况（TrivL） | 折扣情况（ImprL） | 折扣情况（Exact） | 折扣情况（ImprU） | 折扣情况（TrivU） | 折扣情况（Ratio） |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 25 | 0.6290 | 0.6743 | 1.0053 | 1.1535 | 1.1866 | 1.1636 | 2.6608 | 2.9835 | 4.2256 | 5.4417 | 5.6080 | 1.1989 |
| 61 | 0.5756 | 0.6562 | 0.9912 | 1.1047 | 1.1779 | 1.3429 | 2.5388 | 2.8003 | 4.3079 | 5.2663 | 5.4300 | 1.1724 |
| 113 | 0.6115 | 0.6707 | 0.84