35、隐藏模式马尔可夫决策过程与多智能体经济体定价研究

隐藏模式马尔可夫决策过程与多智能体经济体定价研究

1. 隐藏模式马尔可夫决策过程(HM - MDP)

1.1 HM - MDP 问题示例

HM - MDP 适用于多种非平稳顺序决策任务,以下是一些常见问题的模式、状态和动作数量:
| 问题 | 模式数量 | 状态数量 | 动作数量 |
| — | — | — | — |
| 交通灯 | 2 | 8 | 2 |
| 帆船 | 4 | 16 | 2 |
| 电梯 | 3 | 32 | 3 |

1.2 解决 HM - MDP 问题的方法对比

使用增量剪枝方法解决 HM - MDP 问题时,与部分可观测马尔可夫决策过程(POMDP)方法对比,HM - MDP 方法在时间、向量和迭代次数上表现更优:
| 问题 | POMDP 方法(时间、向量、迭代次数) | HM - MDP 方法(时间、向量、迭代次数) |
| — | — | — |
| 交通灯 | >259200、 - 、 - | 4380、404、114 |
| 帆船 | >259200、 - 、 - | 170637、1371、112 |
| 电梯 | >259200、 - 、 - | 186905、3979、161 |

1.3 HM - MDP 的假设及特性

  • 有限数量的环境模式 :MDP 是一个灵活的框架,许多非平稳任务更适合用多个 MDP 来表征。引入不同的 MDP 来建模环境的不同模式,使学习到的模型更易理解,也便于在模型初始化步骤中融入
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值