马尔可夫决策过程中的状态聚合与等价关系研究
1. CTMDPs的有界聚合分析
在CTMDPs(连续时间马尔可夫决策过程)的研究中,有界聚合是一种重要的方法。通过对不同种群规模下的CTMDPs模型进行分析,得到了一系列有价值的结果。
对种群规模为3、5和7的情况进行分析,分别得到具有25、61和113个状态的CTMDPs,对应的BMDPs(有界参数马尔可夫决策过程)状态空间包含10、21和36个状态。具体结果如下表所示:
| 状态数 | 平均情况(TrivL) | 平均情况(ImprL) | 平均情况(Exact) | 平均情况(ImprU) | 平均情况(TrivU) | 平均情况(Ratio) | 折扣情况(TrivL) | 折扣情况(ImprL) | 折扣情况(Exact) | 折扣情况(ImprU) | 折扣情况(TrivU) | 折扣情况(Ratio) |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 25 | 0.6290 | 0.6743 | 1.0053 | 1.1535 | 1.1866 | 1.1636 | 2.6608 | 2.9835 | 4.2256 | 5.4417 | 5.6080 | 1.1989 |
| 61 | 0.5756 | 0.6562 | 0.9912 | 1.1047 | 1.1779 | 1.3429 | 2.5388 | 2.8003 | 4.3079 | 5.2663 | 5.4300 | 1.1724 |
| 113 | 0.6115 | 0.6707 | 0.84
马尔可夫决策过程状态聚合与等价关系研究
超级会员免费看
订阅专栏 解锁全文

33

被折叠的 条评论
为什么被折叠?



