35、隐藏模式马尔可夫决策过程与多智能体经济体定价研究

最新推荐文章于 2025-09-22 21:04:59 发布

emacs5lisp

最新推荐文章于 2025-09-22 21:04:59 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏：探索序列学习的前沿与应用文章标签：隐藏模式马尔可夫决策过程 HM-MDP 多智能体经济体

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/emacs5lisp/article/details/149618415

探索序列学习的前沿与应用专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

隐藏模式马尔可夫决策过程与多智能体经济体定价研究

1. 隐藏模式马尔可夫决策过程（HM - MDP）

1.1 HM - MDP 问题示例

HM - MDP 适用于多种非平稳顺序决策任务，以下是一些常见问题的模式、状态和动作数量：
| 问题 | 模式数量 | 状态数量 | 动作数量 |
| — | — | — | — |
| 交通灯 | 2 | 8 | 2 |
| 帆船 | 4 | 16 | 2 |
| 电梯 | 3 | 32 | 3 |

1.2 解决 HM - MDP 问题的方法对比

使用增量剪枝方法解决 HM - MDP 问题时，与部分可观测马尔可夫决策过程（POMDP）方法对比，HM - MDP 方法在时间、向量和迭代次数上表现更优：
| 问题 | POMDP 方法（时间、向量、迭代次数） | HM - MDP 方法（时间、向量、迭代次数） |
| — | — | — |
| 交通灯 | >259200、 - 、 - | 4380、404、114 |
| 帆船 | >259200、 - 、 - | 170637、1371、112 |
| 电梯 | >259200、 - 、 - | 186905、3979、161 |

1.3 HM - MDP 的假设及特性

有限数量的环境模式 ：MDP 是一个灵活的框架，许多非平稳任务更适合用多个 MDP 来表征。引入不同的 MDP 来建模环境的不同模式，使学习到的模型更易理解，也便于在模型初始化步骤中融入

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。