【西瓜书笔记】11. 隐马尔科夫模型（1）_隐马可夫模型马同学-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_39236489/article/details/123766919

本文介绍了隐马尔科夫模型的基本概念，包括其数学定义、假设前提及三大核心问题。此外还详细探讨了如何通过前向算法与后向算法解决概率计算问题，并给出了具体的计算步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

定义

定义：隐马尔科夫模型(Hidden Markov Model, HMM)是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔科夫链速记生成的状态的序列，成为状态序列。每一个状态生成一个观测，而由此产生的观测的随机序列，成为观测序列，序列的每一个位置又可以看做是一个时刻。请添加图片描述

假设Q是所有N种可能的状态的集合： $Q={q1,q2,…,qN}Q=\left\{q_{1}, q_{2}, \ldots, q_{N}\right\}$ , V是所有M种可能的观测的集合： $V={v1,v2,…,vM}V=\left\{v_{1}, v_{2}, \ldots, v_{M}\right\}$ 。I是长度为T的状态序列，O是对应的观测序列： $I=(i1,i2,…,iT),O=(o1,o2,…,oT)I=\left(i_{1}, i_{2}, \ldots, i_{T}\right), O=\left(o_{1}, o_{2}, \ldots, o_{T}\right)$ .

设A是状态转移概率矩阵： $A=[aij]N×NA=\left[a_{i j}\right]_{N \times N}$ ，其中， $aij=P(it+1=qj∣it=qi)i=1,2,…,N;j=1,2,…,Na_{i j}=P\left(i_{t+1}=q_{j} \mid i_{t}=q_{i}\right) \quad i=1,2, \ldots, N ; j=1,2, \ldots, N$ 。

又设B是观测概率矩阵： $B=[bjk]N×MB=\left[b_{j k}\right]_{N \times M}$ ，其中， $bjk=P(ot=vk∣it=qj),j=1,2,…N;k=1,2,…,Mb_{j k}=P\left(o_{t}=v_{k} \mid i_{t}=q_{j}\right), \quad j=1,2, \ldots N ; k=1,2, \ldots, M$ 。

$π\pi$ 是初始状态概率向量： $π=(π1,π2,…,πN)\pi=\left(\pi_{1}, \pi_{2}, \ldots, \pi_{N}\right)$ ，其中， $πi=P(i1=qi),i=1,2,…,N\pi_{i}=P\left(i_{1}=q_{i}\right), \quad i=1,2, \ldots, N$ 。隐马尔科夫模型由初始状态概率向量 $π\pi$ ，状态转移概率矩阵A和观测概率矩阵B决定。 $π\pi$ 和A决定状态序列，B决定观测序列。因此，隐马尔科夫模型 $λ\lambda$ 可以用三元符号表示，即 $λ=(A,B,π)\lambda=(A, B, \pi)$ 。

两个基本假设

假设1：其次马尔科夫假设，即假设隐藏的马尔科夫链在任意时刻 $t$ 的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关，也与时刻 $t$ 无关：
$P\left(i_{t} \mid i_{t-1}, o_{t-1}, \ldots, i_{1}, o_{1}\right)=P\left(i_{t} \mid i_{t-1}\right)$

假设2：观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔科夫链的状态，与其他观测与状态无关：
$P\left(o_{t} \mid i_{T}, o_{T}, i_{T-1}, o_{T-1}, \ldots, i_{t}, i_{t-1}, o_{t-1}, \ldots, i_{1}, o_{1}\right)=P\left(o_{t} \mid i_{t}\right)$

三个基本问题

问题1：概率计算问题。给定模型 $λ=(A,B,π)\lambda=(A, B, \pi)$ 和观测序列 $O=(o1,o2,…,oT)O=\left(o_{1}, o_{2}, \ldots, o_{T}\right)$ ，计算在模型 $λ\lambda$ 下观测序列O出现的概率 $\mid \lambda)$ 。

问题2：学习问题。已知观测序列 $O=(o1,o2,…,oT)O=\left(o_{1}, o_{2}, \ldots, o_{T}\right)$ 估计模型 $λ=(A,B,π)\lambda=(A, B, \pi)$

的参数，使得在该模型下观测序列概率 $\mid \lambda)$ 最大，即用极大似然估计的方法估计参数。

问题3：预测问题。也称为解码问题，已知模型 $λ=(A,B,π)\lambda=(A, B, \pi)$ 和观测序列 $O=(o1,o2,…,oT)O=\left(o_{1}, o_{2}, \ldots, o_{T}\right)$ ，求对给定规则序列条件概率 $\mid O)$ 最大的状态序列 $I=(i1,i2,…,iT)I=\left(i_{1}, i_{2}, \ldots, i_{T}\right)$ ，即给定观测序列，求最有可能的对应的状态序列。

概率计算问题

直接计算法

对于求 $\mid \lambda)$ 最直接的方法就是按照概率公式直接计算，即：
$\begin{aligned} P(O \mid \lambda) &=\sum_{I} P(O, I \mid \lambda) \\ &=\sum_{I} P(O \mid I, \lambda) P(I \mid \lambda) \end{aligned}$
这里 $πi=P(i1=qi)\pi_{i}=P(i_{1 }= q_{i})$ 。其中， $\mid \lambda)$ 表示给定模型参数时，产生状态序列 $I=(i1,i2,…,iT)I=\left(i_{1}, i_{2}, \ldots, i_{T}\right)$ 的概率：
$\mid \lambda)=\pi_{i_{1}} a_{i_{1} i_{2}} a_{i_{2} i_{3}} \cdots a_{i_{T-1} i_{T}}$
$\mid I, \lambda)$ 表示给定模型参数且状态序列为 $I=(i1,i2,…,iT)I=\left(i_{1}, i_{2}, \ldots, i_{T}\right)$ 时，产生观测序列 $O=(o1,o2,…,oT)O=\left(o_{1}, o_{2}, \ldots, o_{T}\right)$ 的概率：
$\mid I, \lambda)=b_{i_{1} o_{1}} b_{i_{2} o_{2}} \ldots b_{i_{T} o_{T}}$
所以
$\begin{aligned} P(O \mid \lambda) &=\sum_{I} P(O \mid I, \lambda) P(I \mid \lambda) \\ &=\sum_{i_{1}, i_{2}, \ldots, i_{T}} \pi_{i_{1}} b_{i_{1} o_{1}} a_{i_{1} i_{2}} b_{i_{2} o_{2}} \cdots a_{i_{T-1} i_{T}} b_{i_{T} o_{T}} \end{aligned}$
但是其中， $∑i1,i2…,iT\sum_{i_{1}, i_{2} \ldots, i_{T}}$ 共有 $N^{T}$ 种可能，计算 $πi1bi1O1ai1i2bi2O2⋯aiT−1iTbiTOT\pi_{i_{1}} b_{i_{1} O_{1}} a_{i_{1} i_{2}} b_{i_{2} O_{2}} \cdots a_{i_{T-1} i_{T}} b_{i_{T} O_{T}}$ 的时间复杂度为 $O (T)$ ，所以上式整体时间复杂度为 $O(TNT)O\left(T N^{T}\right)$ ，显然时间复杂度太高了，这种算法不可行。

前向算法

首先定义前向概率：给定隐马尔科夫模型 $λ\lambda$ ,定义到时刻t部分观测序列为 $o1,o2,…,oto_{1}, o_{2}, \ldots, o_{t}$ 且状态为 $q_i$ 的概率为前向概率，记作：
$\alpha_{t}(i)=P\left(o_{1}, o_{2}, \ldots, o_{t}, i_{t}=q_{i} \mid \lambda\right)$

请添加图片描述

根据前向概率的定义可推得：
$\mid \lambda)=P\left(o_{1}, o_{2}, \ldots, o_{T} \mid \lambda\right)=\sum_{i=1}^{N} P\left(o_{1}, o_{2}, \ldots, o_{T}, i_{T}=q_{i} \mid \lambda\right)=\sum_{i=1}^{N} \alpha_{T}(i)$
于是求解 $\mid \lambda)$ 的问题被转化为了求解前向概率 $αt(i)\alpha_{t}(i)$ 的问题。由前向概率的定义可知：
$\begin{aligned} &\alpha_{1}(i)=P\left(o_{1}, i_{1}=q_{i} \mid \lambda\right)=\pi_{i} b_{i o_{1}} \\ &\alpha_{2}(i)=P\left(o_{1}, o_{2}, i_{2}=q_{i} \mid \lambda\right)=\left[\sum_{j=1}^{N} \alpha_{1}(j) a_{j i}\right] \times b_{i o_{2}} \\ &\alpha_{3}(i)=P\left(o_{1}, o_{2}, o_{3}, i_{3}=q_{i} \mid \lambda\right)=\left[\sum_{j=1}^{N} \alpha_{2}(j) a_{j i}\right] \times b_{i o_{3}} \end{aligned}$

第2行对应
在这里插入图片描述

依此类推可得如下递推公式：
$\alpha_{t+1}(i)=\left[\sum_{j=1}^{N} \alpha_{t}(j) a_{j i}\right] \times b_{i o_{t+1}}$
因此：
$\alpha_{T}(i)=\left[\sum_{j=1}^{N} \alpha_{T-1}(j) a_{j i}\right] \times b_{i o_{T}}$
将上式所求结果代回：
$\mid \lambda)=P\left(o_{1}, o_{2}, \ldots, o_{T} \mid \lambda\right)=\sum_{i=1}^{N} P\left(o_{1}, o_{2}, \ldots, o_{T}, i_{T}=q_{i} \mid \lambda\right)=\sum_{i=1}^{N} \alpha_{T}(i)$
即可求得 $\mid \lambda)$ 。

后向算法

同前向算法一样，首先定义后向概率：给定隐马尔科夫模型 $λ\lambda$ ，定义在时刻t状态为 $q_i$ 的条件下，从 $t + 1$ 到T的部分观测序列为 $ot+1,ot+2,…,oTo_{t+1}, o_{t+2}, \ldots, o_{T}$ 的概率为后向概率，记作：
$\beta_{t}(i)=P\left(o_{t+1}, o_{t+2}, \ldots, o_{T} \mid i_{t}=q_{i}, \lambda\right)$
请添加图片描述

由后向概率的定义可知
$\begin{aligned} \beta_{T}(i) &=P\left(i_{T}=q_{i}, \lambda\right)=1 \\ \beta_{T-1}(i) &=P\left(o_{T} \mid i_{T-1}=q_{i}, \lambda\right)=\sum_{j=1}^{N} a_{i j} b_{j o_{T}} \beta_{T}(j) \\ \beta_{T-2}(i) &=P\left(o_{T-1}, o_{T} \mid i_{T-2}=q_{i}, \lambda\right)=\sum_{j=1}^{N} a_{i j} b_{j o_{u-1}} \beta_{T-1}(j) \end{aligned}$
第2和第3行分别对应
在这里插入图片描述

依次类推可得递推公式：
$\beta_{t}(i)=\sum_{j=1}^{N} a_{i j} b_{j o_{t+1}} \beta_{t+1}(j)$
根据递推公式可求得 $β1(i)\beta_{1}(i)$ 又：
$\mid \lambda)=P\left(o_{1}, o_{2}, \ldots, o_{T} \mid \lambda\right)=\sum_{i=1}^{N} P\left(o_{1}, i_{1}=q_{i} \mid \lambda\right) P\left(o_{2}, o_{3}, \ldots, o_{T} \mid i_{1}=q_{i}, \lambda\right)=\sum_{i=1}^{N} \pi_{i} b_{i o_{1}} \beta_{1}(i)$
所以也可以求得 $\mid \lambda)$

综上可以看出前向算法和后向算法都是先计算局部概率，然后递推到全局，每一时刻的概率计算都会用上前一时刻计算出的结果，整体的时间复杂度大约是 $O(TN^2)$ 。比如 $βT−1(i)\beta_{T-1}(i)$ ，因为每一个i要先遍历j求和N次，然后再针对i有N种情况，时间复杂度是 $N^2$ ，然后总共有T个 $β\beta$ 。总体复杂度明显小于直接计算法的 $O(TNT)O\left(T N^{T}\right)$ 。

利用前向概率和后向概率，可以得到关于单个状态和两个状态概率的一些计算公式：

公式1

给定模型参数 $λ\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_{i}$ 的概率，记为： $γt(i)=P(it=qi∣O,λ)\gamma_{t}(i)=P\left(i_{t}=q_{i} \mid O, \lambda\right)$

可以通过前向概率和后向概率进行计算，推导如下：
$\gamma_{t}(i)=P\left(i_{t}=q_{i} \mid O, \lambda\right)=\frac{P\left(i_{t}=q_{i}, O \mid \lambda\right)}{P(O \mid \lambda)}=\frac{P\left(i_{t}=q_{i}, O \mid \lambda\right)}{\sum_{j=1}^{N} P\left(i_{t}=q_{j}, O \mid \lambda\right)}$
又由前向概率和后向概率的定义可知：
$\alpha_{t}(i) \beta_{t}(i)=P\left(o_{1}, o_{2}, \ldots, o_{t}, i_{t}=q_{i} \mid \lambda\right) P\left(o_{t+1}, o_{t+2}, \ldots, o_{T} \mid i_{t}=q_{i}, \lambda\right)=P\left(i_{t}=q_{i}, O \mid \lambda\right)$
所以
$\gamma_{t}(i)=\frac{P\left(i_{t}=q_{i}, O \mid \lambda\right)}{\sum_{j=1}^{N} P\left(i_{t}=q_{j}, O \mid \lambda\right)}=\frac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{j=1}^{N} \alpha_{t}(j) \beta_{t}(j)}$

公式2

给定模型参数 $λ\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_{i}$ 且在时刻 $t + 1$ 处于状态 $q_j$ 的概率，记为： $ξt(i,j)=P(it=qi,it+1=qj∣O,λ)\xi_{t}(i, j)=P\left(i_{t}=q_{i}, i_{t+1}=q_{j} \mid O, \lambda\right)$

可以通过前向概率和后向概率进行计算，推导如下：
$\xi_{t}(i, j)=\frac{P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O \mid \lambda\right)}{P(O \mid \lambda)}=\frac{P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O \mid \lambda\right)}{\sum_{i=1}^{N} \sum_{j=1}^{N} P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O \mid \lambda\right)}$
又：
$\begin{aligned} P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O \mid \lambda\right) &=P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, o_{1}, o_{2}, \ldots, o_{T} \mid \lambda\right) \\ &=P\left(o_{1}, o_{2}, \ldots, o_{t}, i_{t}=q_{i} \mid \lambda\right) P\left(o_{t+1}, i_{t+1}=q_{j} \mid i_{t}=q_{i}, \lambda\right) P\left(o_{t+2}, o_{t+3}, \ldots, o_{T} \mid i_{t+1}=q_{j}, \lambda\right) \\ &=\alpha_{t}(i) a_{i j} b_{j o_{t+1}} \beta_{t+1}(j) \end{aligned}$
所以
$\xi_{t}(i, j)=\frac{\alpha_{t}(i) a_{i j} b_{j o_{t+1}} \beta_{t+1}(j)}{\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{t}(i) a_{i j} b_{j o_{t+1}} \beta_{t+1}(j)}$