隐藏模式马尔可夫决策过程与多智能体经济体定价研究
1. 隐藏模式马尔可夫决策过程(HM - MDP)
1.1 HM - MDP 问题示例
HM - MDP 适用于多种非平稳顺序决策任务,以下是一些常见问题的模式、状态和动作数量:
| 问题 | 模式数量 | 状态数量 | 动作数量 |
| — | — | — | — |
| 交通灯 | 2 | 8 | 2 |
| 帆船 | 4 | 16 | 2 |
| 电梯 | 3 | 32 | 3 |
1.2 解决 HM - MDP 问题的方法对比
使用增量剪枝方法解决 HM - MDP 问题时,与部分可观测马尔可夫决策过程(POMDP)方法对比,HM - MDP 方法在时间、向量和迭代次数上表现更优:
| 问题 | POMDP 方法(时间、向量、迭代次数) | HM - MDP 方法(时间、向量、迭代次数) |
| — | — | — |
| 交通灯 | >259200、 - 、 - | 4380、404、114 |
| 帆船 | >259200、 - 、 - | 170637、1371、112 |
| 电梯 | >259200、 - 、 - | 186905、3979、161 |
1.3 HM - MDP 的假设及特性
- 有限数量的环境模式 :MDP 是一个灵活的框架,许多非平稳任务更适合用多个 MDP 来表征。引入不同的 MDP 来建模环境的不同模式,使学习到的模型更易理解,也便于在模型初始化步骤中融入