《统计学习方法》——隐马尔可夫模型

最新推荐文章于 2024-02-25 17:24:48 发布

秋男不吃牛肉豆制品牛奶小麦

最新推荐文章于 2024-02-25 17:24:48 发布

阅读量204

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.youkuaiyun.com/weixin_43766770/article/details/90445267

版权

机器学习专栏收录该内容

11 篇文章

订阅专栏

隐马尔可夫模型(hidden Markov model,HMM)是可用于标注问题的统计学模型，描述由隐藏的马尔可夫链生成观测序列的过程，属于生成模型。

10.1 隐马尔可夫模型的基本概念

10.1.1 隐马尔可夫模型的定义

定义10.1（隐马尔可夫模型） 隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测从而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列，称为状态序列；每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列。序列的每个位置可以看作是一个时刻。
隐马尔可夫模型由初始概率分布、状态转移概率分布以及观测概率分布确定。隐马尔可夫模型的形式定义如下：
设 $Q$ 是所有可能的状态的集合， $V$ 是所有的可能的观测的集合：
$Q=\lbrace q_1,q_2,\cdots,q_N\rbrace,\ V=\lbrace v_1,v_2,\cdots,v_M \rbrace$ 其中， $M$ 表示可能的状态数， $N$ 表示可能的观测数。
$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列：
$I=(i_1,i_2,\cdots,i_T),\ O=(o_1,o_2,\cdots,o_T)$
$A$ 状态转移概率矩阵：
$A=[a_{ij}]_{M\times N}$ 其中， $a_{ij}=P(i_{t+1}=q_j|i_t=q_i),i,j=1,2,\cdots,N$ 其含义为从 $t$ 时刻状态为 $q_i$ 转移到 $t + 1$ 时刻状态为 $q_{i+1}的概率。$
$B$ 观测概率矩阵： $B=[b_j(k)]_{N\times M}$ 其中， $b_j(k)=P(o_t=v_k|i_t=q_j),k=1,2,\cdots,M;\ j=1,2,\cdots,N$ 表示在 $t$ 时刻处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。
$\pi$ 是初始状态概率向量： $\pi=(\pi_i)$ 其中， $\pi=P(i_1=q_i),i=1,2,\cdots,N$ 表示初始时刻处于状态 $q_i$ 的概率。
隐马尔可夫模型由初始状态概率向量 $\pi$ 、状态转移概率矩阵 $A$ 和观测概率矩阵 $B$ 决定，其中 $\pi$ 和 $A$ 决定状态序列， $B$ 决定观测序列。因此，隐马尔可夫模型 $\lambda$ 可以用三元符号表示，即 $\lambda=(A,B,\pi)$ $A、B、\pi$ 称为隐马尔可夫模型的三要素。
状态转移概率模型 $A$ 与状态初始概率向量 $\pi$ 确定了隐藏的马尔可夫链，生成不可观测的状态序列。观测概率矩阵 $B$ 确定了如何从状态生成观测，与状态序列综合确定了如何产生观测序列。
隐马尔可夫模型做了以下两个基本假设：
(1)齐次马尔可夫性假设，假设隐藏的马尔可夫链在任意时刻 $t$ 的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关： $P(i_t|i_{t-1},o_{t-1},\cdots,i_1,o_1)=P(i_t|i_{t-1}),t=1,2,\cdots,T$
(2)观测独立性假设，即任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他状态及观测无关： $P(o_t|i_T,o_T,i_{T-1},o_{T-1},\cdots,i_1,o_1)=P(o_t|i_t)$

10.1.2 观测序列的生成过程：

根据隐马尔可夫模型的定义，可以将一个长度为 $T$ 的观测序列 $O=(o_1,o_2,\cdots,o_T)$ 的生成过程描述如下：
算法10.1观测序列的生成：
输入：隐马尔可夫模型 $\lambda=(A,B,\pi)$ ，观测序列长度T;
输出：观测序列 $O=(o_1,o_2,\cdots,o_T)$ 。
(1)按照初始状态分布 $\pi$ 产生状态 $i_1$ ;
(2)令 $t = 1$ ;
(3)按照状态 $i_t$ 的观测概率分布 $b_{i_t}(k)$ 生成 $o (t)$ ;
(4)按照状态 $i_t$ 的状态转移概率分布 ${a_{i_ti_t+1}}$ 产生状态 $i_{t+1}$ ；
(5)令 $t = t + 1$ ，如果 $t < T$ ，转步(3)；否则，终止。

10.2 概率计算算法

10.2.1 直接计算法

给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,\cdots,o_T)$ ，计算观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。直接计算的思路是：首先求状态序列 $I={i_1,i_2,\cdots,i_T}$ 出现的概率 $\lambda)=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}\cdots a_{i_T-1i_T}$ 对给定的状态序列 $I$ ，观测序列 $O=(o_1,o_2,\cdots,o_T)$ 的概率是： $P(O|I)=b_{i_1}(o_1)b_{i_2}(o_2)\cdots b_{i_T}(o_T)$ $O$ 和 $I$ 同时出现的概率为 $P(O,I|\lambda)=P(O|I,\lambda)P(I|\lambda)$ $=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_{T}}b_{i_T}(o(T))$ 因为要将所有的长度为 $T$ 的状态序列列举出来，状态共 $N$ 种，所以计算量是 $O(TN^T)$ 阶，这种算法不可行。

10.2.2 前向算法

定义10.2(前向概率) 给定隐马尔可夫模型 $\lambda$ ，定义到 $t$ 时刻部分观测序列为 $o_1,o_2,\cdots,o_t$ 且状态为 $q_i$ 的概率为前向概率，记作： $\alpha_t(i)=P(o_1,o_2,\dots,o_t,i_t=q_i|\lambda)$
算法10.2(观测序列概率的前向算法)
这个算法虽然从含义理解上可以认同，但是博主没能从数学的角度上找到一种说服自己的合理推导过程，望有想法者留下评论。
输入：隐马尔可夫模型 $\lambda$ ，观测序列 $O$ ;
输出：观测序列概率 $P(O|\lambda)$ 。
（1）初值 $\alpha_1(i)=P(o_1,i_1=q_i|\lambda)=\pi_ib_i(o_1),i=1,2,\cdots,N$
（2）递推 $\alpha_{t+1}(i)=(\sum_{j=1}^N\alpha_t(j)a_{ji})b_i(o_{t+1})，i=1,2,3,\cdots,N$
（3）终止 $P(O|\lambda)=\sum_{i=1}^N\alpha_T(i)$
前向算法是基于状态序列的路径结构递推计算 $P(O|\lambda)$ 的算法。这种算法所需的计算量大大降低，每一次计算直接引用前一时刻的计算结果，避免了重复计算。利用前向概率计算 $P(O|\lambda)$ 的计算量是 $O(N^2T)$ ，相比直接算法计算量已经大大降低。
从(2)到(3)的推导过程：
$\alpha_{t+1}(i)=P(o_1,o_2,\cdots,o_{t+1},i_{t+1}=q_i|\lambda)$ $=\sum_{j=1}^NP(o_1,o_2,\cdots,o_{t+1},i_t=q_j,i_{t+1}=q_i|\lambda)$ $=\sum_{j=1}^NP(o_1,o_2,\cdots,o_t,i_t=q_j)P(o_{t+1},i_{t+1}=q_i|o_1,o_2,\cdots,o_t,i_t=q_j)$ $=\sum_{j=1}^NP(o_1,o_2,\cdots,o_t,i_t=q_j)P(o_{t+1}|o_1,o_2,\cdots,o_t,i_t=q_j,i_{t+1}=q_i)P(i_{t+1}=q_i|o_1,o_2,\cdots,o_t,i_t=q_j)$ $=\sum_{j=1}^NP(o_1,o_2,\cdots,o_t,i_t=q_j)P(o_{t+1}|i_{t+1}=q_i)P(i_{t+1}=q_i|i_t=q_j)$ $=(\sum_{j=1}^Na_{ji}\alpha_t(j))b_i(o_{t+1})$

10.2.3 后向算法

定义10.3(后向概率) 给定隐马尔可夫模型 $\lambda$ ，定义在时刻 $t$ 状态为 $q_i$ 的条件下，从 $t + 1$ 到 $T$ 的部分观测序列为 $o_{t+1},o_{t+2},\cdots,o_T$ 的概率为后向概率，记作 $\beta_t(i)=P(o_{t+1},o_{t+2},\cdots,o_T|i_t=q_i,\lambda)$
算法10.3(观测序列概率的后向算法)
输入：隐马尔可夫模型 $\lambda$ ，观测序列 $O$ ;
输出：输出：观测序列概率 $P(O|\lambda)$ 。
（1） $\beta_T(i)=1，i=1,2,\cdots,N$
（2）对 $t=T-1,T-2,\cdots,1$ $\beta_t(i)=\sum_{j=1}^N a_{ij}b_j(o_{t+1})\beta_{t+1}(j)，i=1,2,\cdots,N$
（3） $P(O|\lambda)=\sum_{i=1}^N\pi_ib_i(o_1)\beta_1(i)$
从(2)到(3)的推导过程：???这部分推导存疑
$\beta_{t}(i)=P(o_{t+1},o_{t+2},\cdots,o_T|i_{t}=q_i)$ $=\sum_{j=1}^NP(o_{t+1},o_{t+2},\cdots,o_T,i_{t+1}=q_j|i_{t}=q_i)$ $=\sum_{j=1}^NP(o_{t+2},\cdots,o_T|i_{t+1}=q_j,i_t=q_i,o_{t+1})P(o_{t+1},i_{t+1}=q_j,i_t=q_i)$

利用前向概率和后向概率的定义可以将观测序列概率 $P(O|\lambda)=\sum_{i=1}^N\sum_{j=1}^N \alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j),\ \ t=1,2,\cdots,T-1$

10.2.4 一些概率与期望值的计算

利用前向概率和后向概率，可以得到关于单个状态和两个状态概率的计算公式。
1. 给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_i$ 的概率，记作 $\gamma_t(i)=P(i_t=q_i|\lambda,O)=\frac{P(i_t=q_i,O|\lambda)}{P(O|\lambda)}$ 通过前向概率 $\alpha_t(i)$ 和后向概率 $\beta_t(i)$ 的定义： $\alpha_t(i)\beta_t(i)=P(i_t=q_t,O|\lambda)$ 于是， $\gamma_t(i)=\frac{\alpha_t(i)\beta_t(i)}{P(O|\lambda)}=\frac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N\alpha_t(j)\beta_t(j)}$
2.给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_i$ 且在时刻 $t + 1$ 处于状态 $q_j$ 的概率，记作 $\xi_t(i,j)=P(i_t=q_i,i_{t+1}=q_j|O,\lambda)$ 通过前向后向概率计算： $\xi_t(i,j)=\frac{P(i_t=q_i,i_{t+1}=q_j,O|\lambda)}{P(O|\lambda)}=\frac{P(i_t=q_i,i_{t+1}=q_j,O|\lambda)}{\sum_{i=1}^N\sum_{j=1}^NP(i_t=q_i,i_{t+1}=q_j,O|\lambda)}$ 而 $P(i_t=q_i,i_{t+1}=q_j,O|\lambda)=\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)$ 所以 $\xi_t(i,j)=\frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}$
3. 将 $\gamma_t(i)$ 和 $\xi_t(i,j)$ 对各个时刻 $t$ 求和，可以得到一些有用的期望值。
(1). 在观测 $O$ 下状态 $I$ 出现的期望值： $\sum_{t=1}^T\gamma_t(i)$
(2).在观测 $O$ 下由状态 $i$ 转移的期望值： $\sum_{t=1}^{T-1}\gamma_t(i)$
(3).在观测 $O$ 下由状态 $i$ 转移到状态 $j$ 的期望值： $\sum_{t=1}^{T-1}\xi_t(i,j)$

10.3 学习算法

隐马尔可夫模型的学习，根据训练数据是包括观测序列和对应的状态序列还是只有观测序列，可以分别由监督学习与无监督学习实现。

10.3.1 监督学习方法

假设已给的训练数据包括 $S$ 个长度相同的观测序列和对应的状态序列 $\lbrace(O_1,I_1),(O_2,I_2),\cdots,(O_S,I_S)\rbrace$ ，那么可以通过极大似然估计法来估计隐马尔可夫模型的参数。
1. 转移概率 $a_{ij}$ 的估计

2.观测概率 $b_j(k)$ 的估计

3.初始状态概率 $\pi_i$ 的估计 $\hat\pi_i$ 为 $S$ 个样本中初始状态为 $q_i$ 的频率

10.3.2 Baum-Welch算法

假设给定的数据集仅包含 $S$ 个长度为 $T$ 的观测序列 $\lbrace O_1,O_2,\cdots,O_S\rbrace$ 而没有对应的状态序列，目标是学习隐马尔可夫模型 $\lambda=(A,B,\pi)$ 的参数。将观测序列数据作为观测数据 $O$ ,状态序列数据看作不可观测的隐数据 $I$ ，隐马尔可夫模型是一个含有隐变量的概率模型，符合使用EM算法的条件。 $P(O|\lambda)=\sum_IP(O|I,\lambda)P(I|\lambda)$
1. 确定完全数据的对数似然函数
所有观测数据写成 $O=(o_1,o_2,\cdots,o_T)$ ，所有隐数据写成 $I=(i_1,i_2,\cdots,i_T)$ ，完全数据是 $(O,I)=(o_1,o_2,\cdots,o_T,i_1,i_2,\cdots,i_T)$ 。完全数据的对数似然函数是 $logP(O,I|\lambda)$ .
2. EM算法的E步骤，求Q函数 $Q(\lambda,\overline\lambda)$ $Q(\lambda,\overline\lambda)=\sum_IlogP(I,O|\lambda)P(I|O,\overline\lambda)=\sum_IlogP(I,O|\lambda)\frac{P(I,O|\overline\lambda)}{P(O|\overline\lambda)}$ 省略对 $\lambda$ 而言是常数项的 $\frac{1}{P(O|\overline\lambda)}$ ,最终的 $Q$ 函数为 $Q(\lambda,\overline\lambda)=\sum_IlogP(I,O|\lambda)P(I,O|\overline\lambda)$ 其中， $\overline\lambda$ 是隐马尔可夫模型参数的当前估计值， $\lambda$ 是要极大化的隐马尔可夫模型参数。 $P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_T}b_{i_T}(o_T)$