隐马尔科夫模型(HMM)

最新推荐文章于 2025-06-18 23:48:07 发布

SrdLaplaceGua

最新推荐文章于 2025-06-18 23:48:07 发布

阅读量619

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习实用技巧文章标签：机器学习算法人工智能 EM算法无监督学习 HMM

本文链接：https://blog.youkuaiyun.com/SrdLaplace/article/details/82290905

机器学习同时被 2 个专栏收录

57 篇文章

订阅专栏

实用技巧

32 篇文章

订阅专栏

隐马尔可夫模型（Hidden Markov Model，HMM）是含有隐藏状态的马尔可夫过程的模型。隐马尔可夫模型有两种变量，不可观察到的状态和可观察到的观测。

隐马尔可夫模型有两个基本假设：

齐次马尔可夫性假设，即假设隐藏的马尔科夫链在任意时刻t的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关
观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他观测及状态无关.

HMM

HMM的参数 $\lambda$ 有三个：

$A$ 状态转移概率矩阵（不同状态之间的转移概率）
$B$ 观测概率矩阵（不同状态下的观测出现的概率）
初始状态概率向量 $\pi$

使用HMM需要解决3个问题，这是马尔可夫模型的核心问题：

Likelihood: 给定HMM生成一串observation序列 $o$ 的概率
Decoding: 给定一串observation序列 $o$ ，找出HMM最可能状态序列 $s$
Training: 给定一个observation序列 $s$ ，训练出HMM参数

下面就依次解决这三个问题

Likelihood

the Forward algorithm

定义到 $t$ 时刻的观测序列为 $o_{1}o_{2}...o_{t}$ ，状态 $s_t$ 为 $i$ 的概率为前向概率，记作 $\alpha(i)=p(o_{1}o_{2}...o_{t},s_t=i|\lambda)$

给定参数 $\lambda$ 的HMM，求产生 $o_{1}o_{2}...o_{T}$ 的概率

初值： $\alpha_1(i)=\pi_i b(i)$
递推： $\alpha_{t+1}(i)=[\sum_{j=1}^N \alpha_t(j)a_{ji}]b_i(o_{t+1})$
终止： $p(O|\lambda)=\sum_{j=1}^N\alpha_T(j)$

the Backward algorithm

定义 $t$ 时刻之后的观测序列为 $o_{t+1}o_{t+2}...o_{T}$ ，状态 $s_t$ 为 $i$ 的概率为后向概率，记作 $\beta(i)=p(o_{t+1}o_{t+2}...o_{T},s_t=i|\lambda)$

给定参数 $\lambda$ 的HMM，求产生 $o_{1}o_{2}...o_{T}$ 的概率

初值： $\beta_T(i)=1$
递推： $\beta_{t}(i)=\sum_{j=1}^N a_{ij}\beta_{t+1}(j)b_j(o_{t+1})$
终止： $p(O|\lambda)=\sum_{j=1}^N\pi_jb_j(o_1)\beta_1(j)$

Decoding - the Viterbi algorithm

定义在时刻 $t$ 状态为 $i$ 的所有状态路径中概率最大的路径的概率值为 $\delta_t(i)=max_{s_1s_2...s_{t-1}}p(s_t=i,s_1s_2...s_{t-1},o_{1}o_{2}...o_{t}|\lambda)$

定义在时刻 $t$ 状态为 $i$ 的所有状态路径中概率最大的路径 $t-1$ 时刻的状态为 $\phi_t(i)=argmax_j(\delta_t(i)a_{ji})$

给定参数 $\lambda$ 的HMM，已知观测序列为 $o_{1}o_{2}...o_{T}$ ，求最有可能的状态序列 $s_1s_2...s_T$

初始化： $\delta_1(i)=\pi b_i(o_1),\phi_1(i)=0$
递推： $\delta_{t+1}(i)=max_j[\delta_t(j)a_{ji}]b_i(o_{t+1}),\phi_t(i)=argmax_j[\delta_{t-1}(j)a_{ji}]$
终止： $s_T^*=argmax_i\delta_T(i)$
回溯： $s_t^*=\phi_{t+1}(s_{t+1}^*)$

Training

Supervised learning

给定若干个观测序列 $o_{1}o_{2}...o_{T}$ 及对应的状态序列 $s_1s_2...s_T$ 样本，求HMM最有可能的参数 $\lambda$

转移慨率 $A$ 的估计： $a_{ij}=\frac{A_{ij}}{\sum_jA_{ij}}$ ， $A_{ij}$ 是状态 $i$ 之后是状态 $j$ 发生的频次， $\sum_jA_{ij}$ 是状态 $i$ 发生的频次

观测矩阵 $B$ 的估计： $b_i(k)=\frac{B_{ik}}{\sum_kB_{ik}}$ ， $B_{ik}$ 是状态为 $i$ 时观测为 $k$ 的频次， $\sum_kB_{ik}$ 是状态 $i$ 发生的频次。

初始状态概率向量 $\pi$ 的估计：各个初始状态发生的频率。

Supervised learning - Baum-Welch algorithm

给定若干个观测序列 $o_{1}o_{2}...o_{T}$ 样本和状态个数，求HMM最有可能的参数 $\lambda$ 。

这种含有隐藏变量的求解问题我们自然会想到EM算法，BW算法就是EM算法的一个实例，我们就从EM算法的角度来解释一下BW算法：

初始化：随即初始化 $\lambda^{(0)}=(A,B,\pi)$

E步：根据前向后向算法可得对于观测序列 $O^{(n)}$

$p(s_t=i,O^{(n)}|\lambda^{(l)})=\frac{\alpha_t(i)\beta_t(i)}{\sum_i\alpha_t(i)\beta_t(i)}$
$p(s_t=i,s_{t+1}=j,O^{(n)}|\lambda^{(l)})=\frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_t(j)}{\sum_{i,j}\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_t(j)}$

M步：根据上面求得得概率值，更新 $\lambda$

$\pi_i^{(l+1)}=\frac{\sum_np(s_1=i,O^{(n)}|\lambda^{(l)})}{\sum_i\sum_np(s_1=i,O^{(n)}|\lambda^{(l)})}=\frac{\sum_np(s_1=i,O^{(n)}|\lambda^{(l)})}{N}$
$a_{ij}^{(l+1)}=\frac{\sum_n\sum_tp(s_t=i,s_{t+1}=j,O^{(n)}|\lambda^{(l)})}{\sum_n\sum_j\sum_tp(s_t=i,s_{t+1}=j,O^{(n)}|\lambda^{(l)})}$
$b_i^{(l+1)}(k)=\frac{\sum_n\sum_tp(s_t=i,o_t=k,O^{(n)}|\lambda^{(l)})}{\sum_n\sum_t\sum_kp(s_t=i,o_t=k,O^{(n)}|\lambda^{(l)})}=\frac{\sum_n\sum_tp(s_t=i,o_t=k,O^{(n)}|\lambda^{(l)})}{\sum_n\sum_tp(s_t=i,O^{(n)}|\lambda^{(l)})}$