34、隐模式马尔可夫决策过程：算法与实证研究

emacs5lisp

于 2025-07-14 13:52:21 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：探索序列学习的前沿与应用文章标签：隐模式马尔可夫决策过程 HM-MDP POMDP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/emacs5lisp/article/details/149618414

探索序列学习的前沿与应用专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

隐模式马尔可夫决策过程：算法与实证研究

1. 引言

隐模式马尔可夫决策过程（HM - MDP）是部分可观测马尔可夫决策过程（POMDP）的一个特殊类别。HM - MDP 相较于 POMDP 具有更少的模型参数，在学习和求解相关问题时具有一定优势。本文将介绍 HM - MDP 的学习算法、实证研究以及解决隐模式问题的方法。

2. HM - MDP 学习算法

2.1 HM - MDP 与 POMDP 的关系

一个 3 模式、4 状态、1 动作的 HM - MDP 可以等效转换为一个 POMDP。在图 5 中，HM - MDP 的模式 m 下的状态 s 被重新标记为。需要注意的是，HM - MDP 的模型参数比其对应的 POMDP 少得多。

2.2 HM - MDP Baum - Welch 算法

该算法是对标准 Baum - Welch 算法的扩展，用于学习 HM - MDP 模型。其核心思想是通过维护一组辅助变量，从观测序列中推断隐藏变量的转移情况，进而估计模型参数。
- 算法框架 ：
1. 给定数据集合和初始模型参数向量 $\overline{\theta}$。
2. 重复以下步骤：
- $\theta = \overline{\theta}$
- 计算前向变量 $\alpha_t$（图 7）。
- 计算后向变量 $\beta_t$（图 8）。
- 计算辅助变量 $\xi_t$ 和 $\gamma_t$（图 9）。
- 计算新的模型参数 $\overline{\theta}$（图 10）。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。