HMM概率计算详解-优快云博客

本文链接：https://blog.youkuaiyun.com/joyliness/article/details/79593485

HMM的概率计算问题

HMM的概率计算问题是指，给定模型参数 $λ=(A,B,π)\lambda = (A,B,\pi)$ 和观测序列 $O = (o_1,o_2,...,o_T)$ ，计算在模型 $λ\lambda$ 下，观测序列 $O$ 出现的概率： $\lambda)$ 。

直接计算

按概率公式直接计算，在贝叶斯框架下有：

$\lambda) = \sum_{I} P(O,I | \lambda) = \sum_{I} P(O | I,\lambda)P(I | \lambda)$

其中， $I,\lambda)$ 是从 $it→oti_t \to o_t$ ，由发射概率矩阵 $[bj(k)]N×M[b_j(k)]_{N \times M}$ 中获得：

$I,\lambda) =P(o_1 | i_1)...P(o_t | i_t)...P(o_T | i_T) = b_{i_1}(o_1)...b_{i_t}(o_t)...b_{i_T}(o_T)$ ，共 $T$ 项

$\lambda)$ 是从 $it−1→iti_{t-1} \to i_t$ ，由转移概率矩阵 $[aij]N×N[a_{ij}]_{N \times N}$ 和初始状态概率向量 $π\pi$ 获得：

$\lambda) = \pi_{i_1}P(i_2 | i_1) ...P(i_t | i_{t-1})...P(i_T | i_{T-1}) = \pi_{i_1} a_{i_1 i_2}...a_{i_{t-1} i_t}...a_{i_{T-1} i_T}$ ，共 $T$ 项

两式代入计算得：

$\lambda) = \sum_{I} P(O,I | \lambda)$

$\sum_{I} P(O | I,\lambda)P(I | \lambda)$

$\sum_{I} [b_{i_1}(o_1)...b_{i_t}(o_t)...b_{i_T}(o_T)] \times [\pi_{i_1} a_{i_1 i_2}...a_{i_{t-1} i_t}...a_{i_{T-1} i_T}]$

$\sum_{I} \pi_{i_1} \prod_{t=1}^T b_{i_t}(o_t) \prod_{t=1}^{T-1}a_{i_t i_{t+1}}$

由于 $∑I=∑i1...∑it...∑iT\sum_{I} = \sum_{i_1}...\sum_{i_t}...\sum_{i_T}$ ，每个 $i_t$ 有 $N$ 种取值可能，故 $∑I\sum_{I}$ 共有 $N^T$ 项，可知若按概率公式直接计算 $\lambda)$ ，计算量会很大。

前向算法（Forward Algorithm）

找出从时刻 $\to ... \to t \to ... \to T$ ，前向概率的递归关系：

前向概率

在观测时间点 $1, . . ., t, . . ., T$ 上，对应的观测值为 $o_1,...,o_t,...,o_T$ ，各隐状态分别为 $i_1,...,i_t,...,i_T$ 。

$i1→...→it→...→iTi_1 \to ... \to i_t \to ...\to i_T$ $o1→...→ot→...→oTo_1 \to ... \to o_t \to ...\to o_T$

定义前向概率： $αt(i)=P(o1,...,ot,it=qi∣λ)\alpha_t(i) = P(o_1,...,o_t,i_t = q_i | \lambda)$

它表示：截止到时刻 $t$ ，观测序列的值为 $o_1,o_2,...,o_t$ 、且 $t$ 时刻的状态为 $q_i$ 的概率。

递归过程的公式推导

根据定义，写出 $t = 1$ 和 $t = 2$ 的前向概率：

$α1(i)=P(o1,i1=qi∣λ)=P(o1∣i1=qi,λ)P(i1=qi∣λ)=bi(o1)πi\alpha_1(i) = P(o_1,i_1 = q_i | \lambda) = P(o_1 | i_1 = q_i, \lambda)P(i_1 = q_i | \lambda) = b_{i}(o_1) \pi_i$
$α2(j)=P(o1,o2,i2=qj∣λ)\alpha_2(j) = P(o_1,o_2,i_2 = q_j | \lambda)$
$= \sum_{i=1}^N P(o_1,o_2,i_1 = q_i,i_2 = q_j | \lambda) $
$\sum_{i=1}^N P(o_2 | i_2 = q_j,\lambda)P(i_2 = q_j | i_1 = q_i,\lambda)P(o_1 | i_1 = q_i,\lambda) P(i_1 = q_i | \lambda)$
$\sum_{i=1}^N b_j(o_2) a_{ij} \alpha_1$
$b_j(o_2) \sum_{i=1}^N a_{ij} \alpha_1(i)$

$. . .$

递推得到 $αt+1(j)\alpha_{t+1}(j)$ 与 $αt(i)\alpha_t(i)$ 之间的关系：

$αt+1(j)=bj(ot+1)∑i=1Naijαt(i)\alpha_{t+1}(j) = b_j(o_{t+1}) \sum_{i=1}^N a_{ij} \alpha_t(i)$

其中， $\in \{1,2,...,N\}$ 。

对递归过程的直观理解

以 $t = 1$ 和 $t = 2$ 两个时刻为例，它们之间涉及到的观测值和隐状态有： $o_1$ 、 $o_2$ 、 $i_1$ 、 $i_2$ ：

$i1→i2i_1 \to i_2$

$o1→o2o_1 \to o_2$

当计算出 $α1(i)=P(o1,i1=qi∣λ),i∈{1,2,...,N}\alpha_1(i) = P(o_1,i_1 = q_i | \lambda), i \in \{1,2,...,N\}$ 后，我们手上的信息有：在时刻 $t = 1$ ，隐状态为 $q_1$ 且观测值为 $o_1$ 的概率 $α1(1)\alpha_1(1)$ 、…、隐状态为 $q_N$ 且观测值为 $o_1$ 的概率 $α1(N)\alpha_1(N)$ 。

而计算 $α2(j)=P(o1,o2,i2=qj∣λ),j∈{1,2,...,N}\alpha_2(j) = P(o_1,o_2,i_2 = q_j | \lambda), j \in \{1,2,...,N\}$ 意味着我们要求出：在时刻 $t = 2$ ，隐状态为 $q_1$ 且过去两个观测值为 $o_1$ 、 $o_2$ 的概率 $α2(1)\alpha_2(1)$ 、…、隐状态为 $q_N$ 且过去两个观测值为 $o_1$ 、 $o_2$ 的概率 $α2(N)\alpha_2(N)$ 。

如何利用 $α1(i)\alpha_1(i)$ 来计算 $α2(j)\alpha_2(j)$ ？

对比我们已有的信息、待求的信息，发现我们需要确定的是观测值 $o_2$ ，而 $o_2$ 是通过 $i_2$ 决定（即 $b_{i_2}(o_2)$ ）， $i_2$ 又由 $i_1$ 确定（即 $a_{i_1 i_2}$ ）。因此，在每个 $α1(i)\alpha_1(i)$ 的基础上，再加入 $b_{i_2}(o_2)$ 和 $a_{i_1 i_2}$ 这两个概率，就可求得 $α2(j)\alpha_2(j)$ ：

$α2(j)=∑i1=1Nα1(i)bi2(o2)ai1i2\alpha_2(j) = \sum_{i_1 = 1}^N \alpha_1(i) b_{i_2}(o_2) a_{i_1 i_2}$

稍作调整令 $i_1 = q_i, i_2 = q_j$ ，即可得：

$α2(j)=∑i=1Nα1(i)bj(o2)aij=bj(o2)∑i=1Nα1(i)aij\alpha_2(j) = \sum_{i = 1}^N \alpha_1(i) b_{j}(o_2) a_{ij} = b_j(o_2) \sum_{i=1}^N \alpha_1(i) a_{ij}$

意义

为什么要计算前向概率？

首先，前向概率可以帮助我们计算目标概率： $\lambda)$ 。根据定义， $t = T$ 时刻的前向概率为：

$αT(i)=P(o1,...,oT,iT=qi∣λ)\alpha_T(i) = P(o_1,...,o_T,i_T = q_i | \lambda)$

因此， $\lambda) = \sum_{i=1}^N \alpha_T(i)$ 。

其次，由于递归关系的存在，计算前向概率的工作量，远小于概率公式直接计算。注意到， $\in \{1,2,...,N\}$ 。因此，计算 $α1(i)\alpha_1(i)$ 需进行 $N$ 次运算；计算 $α2(i)\alpha_2(i)$ 需进行 $N$ 次累加；…；计算 $αT(i)\alpha_T(i)$ 需进行 $N$ 次累加。最终进行了 $\times T$ 次运算，远小于 $N^T$ 。
计算量减少的原因在于，每一次计算直接引用前一个时刻的计算结果，避免重复计算。

后向算法（Backward Algorithm）

找出从时刻 $\to ... \to t \to ... \to 1$ ，后向概率的递归关系：

后向概率

在观测时间点 $1, . . ., t, . . ., T$ 上，对应的观测值为 $o_1,...,o_t,...,o_T$ ，各隐状态分别为 $i_1,...,i_t,...,i_T$ 。

$i1→...→it→...→iTi_1 \to ... \to i_t \to ...\to i_T$ $o1→...→ot→...→oTo_1 \to ... \to o_t \to ...\to o_T$

定义后向概率： $βt(i)=P(ot+1,...,oT∣it=qi,λ)\beta_t(i) = P(o_{t+1},...,o_T | i_t = q_i, \lambda)$

它表示：在 $t$ 时刻的状态为 $q_i$ 的条件下，对于 $t$ 之后的所有时刻，观测序列的值为 $o_{t+1},o_{t+2},...,o_T$ 的概率。

递归过程的公式推导

根据定义，写出 $t = T$ 、 $t = T - 1$ 和 $t = T - 2$ 的后向概率：

$βT(i)=1\beta_T(i) = 1$

【注】：初始值等于 $1$ 是因为，后向概率考量的是 $t$ 时刻之后（不包括 $t$ 时刻）的观测值序列，我们的观测序列只持续到时刻 $T$ ， $T$ 之后的观测值与状态都未知，所有的情况都是可能的，因此定义为 $1$ 。

$βT−1(i)=P(oT∣iT−1=qi,λ)\beta_{T-1}(i) = P(o_T | i_{T-1} = q_i, \lambda)$
$\sum_{k=1}^N P(o_T,i_T = q_k| i_{T-1} = q_i, \lambda)$
$\sum_{k=1}^N P(o_T | i_T = q_k,\lambda) P(i_T = q_k | i_{T-1} = q_i, \lambda)$
$\sum_{k=1}^N b_k(o_T) a_{ik}$
$βT−2(j)=P(oT,oT−1∣iT−2=qj,λ)\beta_{T-2}(j) = P(o_T,o_{T-1} | i_{T-2} = q_j, \lambda)$
$\sum_{i=1}^N \sum_{k=1}^N P(o_T,o_{T-1},i_T=q_k,i_{T-1}=q_i | i_{T-2} = q_j, \lambda)$
$\sum_{i=1}^N \sum_{k=1}^N P(o_T | i_T=q_k, \lambda) P(i_T=q_k | i_{T-1}=q_i, \lambda) P(o_{T-1} | i_{T-1}=q_i, \lambda) P(i_{T-1}=q_i | i_{T-2}=q_j, \lambda)$
$\sum_{i=1}^N \beta_{T-1}(i) b_i(o_{T-1}) a_{ji}$

$. . .$

递推得到 $βt(j)\beta_t(j)$ 与 $βt+1(i)\beta_{t+1}(i)$ 之间的关系：

$βt(j)=∑i=1Nβt+1(i)bi(ot+1)aji\beta_t(j) = \sum_{i=1}^N \beta_{t+1}(i) b_i(o_{t+1}) a_{ji}$

其中， $\in \{1,2,...,N\}$ 。

对递归过程的直观理解

以 $t = T - 1$ 和 $t = T - 2$ 两个时刻为例，它们之间涉及到的观测值和隐状态有： $o_{T-2}$ 、 $o_{T-1}$ 、 $o_T$ 、 $i_{T-2}$ 、 $i_{T-1}$ 、 $i_T$ ：

$iT−2→iT−1→iTi_{T-2} \to i_{T-1} \to i_T$

$oT−2→oT−1→oTo_{T-2} \to o_{T-1}\to o_T$

当计算出 $βT−1(i)=P(oT∣iT−1=qi,λ),i∈{1,2,...,N}\beta_{T-1}(i) = P(o_T | i_{T-1} = q_i, \lambda), i \in \{1,2,...,N\}$ 后，我们手上的信息有：在时刻 $t = T - 1$ ，隐状态为 $q_1$ 的条件下，后面时刻的观测值为 $o_T$ 的概率 $βT−1(1)\beta_{T-1}(1)$ 、…、隐状态为 $q_N$ 的条件下，后面时刻的观测值为 $o_T$ 的概率 $βT−1(N)\beta_{T-1}(N)$ 。

而计算 $βT−2(j)=P(oT,oT−1∣iT−2=qj,λ),j∈{1,2,...,N}\beta_{T-2}(j) = P(o_T,o_{T-1} | i_{T-2} = q_j, \lambda), j \in \{1,2,...,N\}$ 意味着我们要求出：在时刻 $t = T - 2$ ，隐状态为 $q_1$ 的条件下，后面时刻的观测值为 $o_T$ 、 $o_{T-1}$ 的概率 $βT−2(1)\beta_{T-2}(1)$ 、…、隐状态为 $q_N$ 的条件下，后面时刻的观测值为 $o_T$ 、 $o_{T-1}$ 的概率 $βT−2(N)\beta_{T-2}(N)$ 。

如何利用 $βT−1(i)\beta_{T-1}(i)$ 来计算 $βT−2(j)\beta_{T-2}(j)$ ？

对比我们已有的信息、待求的信息，发现我们需要确定的是观测值 $o_{T-1}$ ，而 $o_{T-1}$ 是通过 $i_{T-1}$ 决定（即 $b_{i_{T-1}}(o_{T-1})$ ）， $i_{T-1}$ 又由 $i_{T-2}$ 确定（即 $a_{i_{T-2} i_{T-1}}$ ）。因此，在每个 $βT−1(i)\beta_{T-1}(i)$ 的基础上，再加入 $b_{i_{T-1}}(o_{T-1})$ 和 $a_{i_{T-2} i_{T-1}}$ 这两个概率，就可求得 $βT−2(j)\beta_{T-2}(j)$ ：

$βT−2(j)=∑iT−1=1NβT−1(i)biT−1(oT−1)aiT−2iT−1\beta_{T-2}(j) = \sum_{i_{T-1} = 1}^N \beta_{T-1}(i) b_{i_{T-1}}(o_{T-1}) a_{i_{T-2} i_{T-1}}$

稍作调整令 $t = T-2, t+1 = T-1, i_{T-1} = q_i, i_{T-2} = q_j$ ，即可得：

$βt(j)=∑i=1Nβt+1(i)bi(ot+1)aji\beta_{t}(j) = \sum_{i = 1}^N \beta_{t+1}(i) b_{i}(o_{t+1}) a_{ji}$

意义

为什么要计算后向概率？

首先，后向概率也可以帮助我们计算目标概率： $\lambda)$ 。根据定义， $t = 1$ 时刻的后向概率为：

$β1(i)=P(o2,...,oT∣i1=qi,λ)\beta_1(i) = P(o_2,...,o_T | i_1 = q_i, \lambda)$

此时 $β1(i)\beta_1(i)$ 与目标概率 $\lambda)$ 相比，还差一个观测值 $o_1$ 。由于所有的观测都相互独立，在 $t = 1$ 时刻、状态为 $q_i$ 的条件下，观测值 $o_1$ 出现的条件概率为： $P(o1∣i1=qi,λ)=bi(o1)P(o_1 | i_1 = q_i, \lambda) = b_i(o_1)$

两式相乘，得到所有观测值 $O = (o_1,...,o_T)$ 在 $t = 1$ 时刻、状态为 $q_i$ 条件下的联合概率： $P(o1,...,oT∣i1=qi,λ)=β1(i)bi(o1)P(o_1,...,o_T | i_1 = q_i, \lambda) = \beta_1(i) b_i(o_1)$

因此，目标概率 $\lambda) = \sum_{i=1}^N P(o_1,...,o_T | i_1 = q_i, \lambda) P(i_1 = q_i| \lambda ) = \sum_{i=1}^N \beta_1(i) b_i(o_1) \pi_i$

其次，后向概率与前向概率的计算量一样，最终进行了 $\times T$ 次运算，都远远小于概率公式直接计算的 $N^T$ 项。

前向-后向算法（Forward-Backward Algorithm）

前向算法利用前向概率，从 $\to T$ 的方向计算 $\lambda)$ = $∑i=1NαT(i)\sum_{i=1}^N \alpha_T(i)$

后向算法利用后向概率，从 $\to 1$ 的方向计算 $\lambda)$ = $∑i=1Nβ1(i)bi(o1)πi\sum_{i=1}^N \beta_1(i) b_i(o_1) \pi_i$

也可以同时用前向概率、后向概率计算 $\lambda)$ ：

$\lambda) = \sum_{i=1}^N P(O,i_t = q_i | \lambda)$

$\sum_{i=1}^N P(O | i_t = q_i,\lambda) P(i_t = q_i | \lambda)$

$\sum_{i=1}^N P(o_1,...,o_t | i_t = q_i,\lambda) P(o_{t+1},...,o_T | i_t = q_i,\lambda) P(i_t = q_i | \lambda)$

$\sum_{i=1}^N P(o_1,...,o_t,i_t = q_i | \lambda) P(o_{t+1},...,o_T | i_t = q_i,\lambda)$

$\sum_{i=1}^N \alpha_t(i) \beta_t(i)$

若利用后向概率的递推关系，替换 $βt(i)=∑j=1Nβt+1(j)bj(ot+1)aij\beta_{t}(i) = \sum_{j = 1}^N \beta_{t+1}(j) b_{j}(o_{t+1}) a_{ij}$ ，又有：

$\lambda) = \sum_{i=1}^N \sum_{j=1}^N \alpha_t(i) \beta_{t+1}(j) b_j(o_{t+1}) a_{ij}$

其他概率的计算

利用前向、后向概率，还可以进行其他的计算：

给定模型 $λ\lambda$ ，则观测序列为 $O=(o_1,...,o_T)$ 、且 $t$ 时刻的隐状态为 $q_i$ 的概率：

$P(O,it=qi∣λ)=αt(i)βt(i)P(O,i_t = q_i | \lambda) = \alpha_t(i) \beta_t(i)$

给定模型 $λ\lambda$ 和观测序列 $O=(o_1,...,o_T)$ ，则 $t$ 时刻的隐状态为 $q_i$ 的概率（单个状态）：

$P(it=qi∣O,λ)=P(O,it=qi∣λ)P(O∣λ)=αt(i)βt(i)∑j=1Nαt(j)βt(j)P(i_t = q_i | O,\lambda) = \frac{P(O,i_t = q_i | \lambda)}{P(O | \lambda)} = \frac{\alpha_t(i) \beta_t(i)}{\sum_{j=1}^N \alpha_t(j) \beta_t(j)}$

给定模型 $λ\lambda$ 和观测序列 $O=(o_1,...,o_T)$ ，则 $t$ 时刻的隐状态为 $q_i$ 、且 $t + 1$ 时刻的隐状态为 $q_j$ 的概率（两个状态）：

$P(it=qi,it+1=qj∣O,λ)=P(O,it=qi,it+1=qj∣λ)P(O∣λ)=αt(i)βt+1(j)bj(ot+1)aij∑i=1N∑j=1Nαt(i)βt+1(j)bj(ot+1)aijP(i_t = q_i,i_{t+1} = q_j | O,\lambda) = \frac{P(O,i_t = q_i,i_{t+1} = q_j | \lambda)}{P(O | \lambda)} = \frac{\alpha_t(i) \beta_{t+1}(j) b_j(o_{t+1}) a_{ij}}{\sum_{i=1}^N \sum_{j=1}^N \alpha_t(i) \beta_{t+1}(j) b_j(o_{t+1}) a_{ij}}$