概率图模型-隐马尔可夫模型

最新推荐文章于 2024-02-05 10:42:54 发布

原创最新推荐文章于 2024-02-05 10:42:54 发布 · 518 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习

机器学习专栏收录该内容

1 篇文章

订阅专栏

说明：个人学习笔记，大量摘抄参考资料[2][3][4]的内容。

隐马尔可夫模型

概述
三个参数
两个假设
三个问题
参考资料

概述

隐马尔可夫模型(Hidden Markov Model, HMM)是一种结构简单的动态贝叶斯网络，描述了一个含有隐含未知参数的马尔可夫过程，主要用于时序数据建模，在语音识别、自然语言处理等领域有广泛应用。下文主要讨论马尔可夫模型的参数、假设和基本问题。
在这里插入图片描述

变量	定义
$\textbf{x}=\{x_1,x_2,...,x_n\}$	观测变量
${o_1,o_2,...,o_M\}$	观测变量的取值范围
$\textbf{y}=\{y_1,y_2,...,y_n\}$	状态变量（隐变量）
${s_1,s_2,...,s_N\}$	状态变量的取值范围（状态空间）

三个参数

状态转移概率 $A$ ：模型在各个状态间转换的概率，记为 $A=[a_{ij}]_{N \times N}$ ，其中

$a_{ij}=P(y_{t+1}=s_j|y_t=s_i)$

表示在任意时刻 $t$ ，若状态为 $s_i$ ，则在下一时刻状态变为 $s_j$ 的概率。

输出观测概率 $B$ ：模型根据当前状态获得各个观测值的概率，记为 $B=[b_{ij}]_{N \times M}$ ，其中

$b_{ij}=P(x_t=o_j|y_t=s_i)$

表示在任意时刻 $t$ ，若状态为 $s_i$ ，则观测值 $o_j$ 被获取的概率。

初始状态概率 $\pi$ ：模型在初始时刻各状态出现的概率，记为 $\pi=(\pi_1,\pi_2,...,\pi_N)$ ，其中

$\pi_i=P(y_1=s_i)$

表示模型的初始状态为 $s_i$ 的概率

两个假设

齐次马尔可夫假设：又称一阶马尔可夫假设，任意时刻的状态只依赖前一时刻的状态，与其他时刻无关。公式表达如下

$P(y_{t+1}|y_t,y_{t-1},...,y_1,x_t,x_{t-1},...,x_1)=P(y_{t+1}|y_t)$

观测独立性假设：任意时刻的观测只依赖于该时刻的状态，与其他状态无关。公式表达如下

$P(x_t|y_t,y_{t-1},...,y_1,x_{t-1},...,x_1)=P(x_t|y_t)$

参考资料[6]还提到参数不变性假设，即上节中的三个参数不随时间变化而变化。因对参数 $A$ 和 $B$ 的定义已使用“任意时刻 $t$ ”及参数 $\pi$ 的定义已规定为初始时刻，故已默认其不受时间变化而变化，因此在此不单独列出作为一条假设。

三个问题

评估问题

已知 $\lambda$ ,求 $P(\textbf{x}|\lambda)$ ，即评估模型与观测序列之间的匹配程度。常用求解方法有前向算法、后向算法。

如果直接进行暴力求解，有公式
$P(\textbf{x}|\lambda)=\sum_{\textbf{y}}P(\textbf{y},\textbf{x}|\lambda)=\sum_{\textbf{y}}{P(\textbf{y}|\lambda) \cdot P(\textbf{x}|\textbf{y},\lambda)}$

其中又有
$\begin{aligned} P(\textbf{y}|\lambda)&=P(y1,...,y_T|\lambda)\\ &=P(y_1|y_2,...,y_T,\lambda) \cdot P(y_2,...,y_T|\lambda)\\ &= P(y_1|y_2) \cdot P(y_2,...,y_T|\lambda)(假设1)\\ &=a_{y_1,y_2}P(y_2,...,y_T|\lambda)= \cdots \\ &= \pi_{y_1}\prod_{t=1}^{T}a_{y_{i-1},y_i}\\ P(\textbf{x}|\textbf{y},\lambda)&=\prod_{t=1}^{T}{b_{y_t,x_t}} \end{aligned}$

则可以得到
$P(\textbf{x}|\lambda)=\sum_{\textbf{y}}\pi_{y_1}\prod_{t=1}^{T}a_{y_{t-1},y_t}\prod_{t=1}^{T}{b_{y_t,x_t}}$

其中状态序列 $\textbf{y}$ 包括 $T$ 个状态，每个状态又有 $N$ 种取值可能，因此求和符号中包含 $N^T$ 项，整个计算公式的时间复杂度高达 $O(N^T)$ 。

前向算法
设前向概率 $\alpha_t(j)=P(x_1,...,x_t,y_t=s_j|\lambda)$ ，则有
$P(\textbf{x}|\lambda)=\sum_{i=1}^{N}{P(\textbf{x},y_T=s_i|\lambda)}=\sum_{i=1}^{N}{\alpha_{T}(i)}$

可知 $\alpha_1(i)=P(x_1,y_1=s_i|\lambda)=P(y_1=s_i) \cdot P(x_1|y_1=s_i,\lambda)=\pi_{i}b_{i,x_1}$
现在只需求出 $\alpha_t(i)$ 和 $\alpha_{t+1}(i)$ 之间的关系式：
$\begin{aligned} \alpha_{t+1}(j)&=P(x_1,...,x_{t+1},y_{t+1}=s_j|\lambda)=\sum_{i=1}^N{P(x_1,...,x_{t+1},y_{t+1}=s_j,y_t=s_i|\lambda)}\\ &=\sum_{i=1}^N{P(x_{t+1}|x_1,...,x_t,y_{t+1}=s_j,y_t=s_i,\lambda)} \cdot P(x_1,...,x_t,y_{t+1}=s_j,y_t=s_i|\lambda)\\ &=\sum_{i=1}^N{P(x_{t+1}|y_{t+1}=s_j)} \cdot P(x_1,...,x_t,y_{t+1}=s_j,y_t=s_i|\lambda) (假设1)\\ &=\sum_{i=1}^N{P(x_{t+1}|y_{t+1}=s_j)} \cdot P(y_{t+1}=s_j|x_1,...,x_t,y_t=s_i,\lambda) \cdot P(x_1,...,x_t,y_t=s_i|\lambda)\\ &=\sum_{i=1}^N{P(x_{t+1}|y_{t+1}=s_j)} \cdot P(y_{t+1}=s_j|y_t=s_i) \cdot P(x_1,...,x_t,y_t=s_i|\lambda)(假设2)\\ &=b_{j,x_{t+1}}\sum_{i=1}^Na_{ij}\alpha_t(i) \end{aligned}$

前向算法求解步骤如下：
step1 初始化
$\alpha_1(i)=\pi_{i}b_{j1}, i=1,2,...,N$
step2 从前向后，逐步递推求
$\alpha_{t+1}(i)=b_{j,x_{t+1}}\sum_{i=1}^Na_{ij}\alpha_t(i),t=1,...,T-1$
step3 对 $T$ 时刻的所有前向概率求和
$P(\textbf{x}|\lambda)=\sum_{i=1}^{N}{\alpha_{T}(i)}$

后向算法
设后向概率 $\beta_t(i)=P(x_{t+1},...,x_T|y_t=s_i,\lambda)$ ，则有
$\begin{aligned} P(\textbf{x}|\lambda)&=\sum_{i=1}^{N}{P(\textbf{x}|y_1=s_i,\lambda) \cdot P(y_1=s_i|\lambda)}\\ &=\sum_{i=1}^{N}{P(x1|x_2,...,x_T,y_1=s_i,\lambda) \cdot P(x_2,...,x_T|y_1=s_i,\lambda)} \cdot \pi_i\\ &=\sum_{i=1}^{N}{\pi_iP(x_1|y_1=s_i)}\beta_1(i)(假设2)\\ &=\sum_{i=1}^{N}{\pi_i b_{i,x_1} \beta_1(i)} \end{aligned}$

同理去求 $\beta_t(i)$ 和 $\beta_{t+1}(i)$ 之间的关系式：
$\begin{aligned} \beta_t(i)&=P(x_{t+1},...,x_T|y_t=s_i,\lambda)\\ &=\sum_{j=1}^{N}{P(x_{t+1},...,x_T,y_{t+1}=s_j|y_t=s_i,\lambda)}\\ &=\sum_{j=1}^{N}{P(x_{t+1},...,x_T|y_{t+1}=s_j,y_t=s_i,\lambda) \cdot P(y_{t+1}=s_j|y_t=s_i,\lambda)}\\ &=\sum_{j=1}^{N}{P(x_{t+1},...,x_T|y_{t+1}=s_j,\lambda)} \cdot a_{ij}(条件独立性)\\ &=\sum_{j=1}^{N}{P(x_{t+1}|x_{t+2},...,x_T,y_{t+1}=s_j,\lambda)} \cdot P(x_{t+2},...,x_T|y_{t+1}=s_j,\lambda) \cdot a_{ij}\\ &=\sum_{j=1}^{N}{P(x_{t+1}|y_{t+1}=s_j)} \cdot \beta_{t+1}(j)\cdot a_{ij}(假设2)\\ &=\sum_{j=1}^{N}{a_{ij}b_{j,x_{t+1}}\beta_{t+1}(j)} \end{aligned}$

后向算法求解步骤如下：
step1 初始化，定义
$\beta_T(i)=1$
step2 从后向前，逐步递推求
$\beta_t(i)=\sum_{j=1}^{N}{a_{ij}b_{j,x_{t+1}}\beta_{t+1}(j)},t=T-1,T-2,...,1$
step3 将初始时刻的后向概率带入
$\beta_t(i)==\sum_{i=1}^{N}{\pi_i b_{i,x_1} \beta_1(i)}$

解码问题

已知 $\lambda$ 和 $\textbf{x}$ ，求定义 $\widehat{y}=\mathop{\arg\max}\limits_{\textbf{y}}{P(\textbf{y}|\lambda,\textbf{x})}$ ，即根据观测序列求隐藏的模型状态。常用求解方法有维特比(viterbi)方法。

评估问题中，提到了状态序列 $\textbf{y}$ 包括 $T$ 个状态，每个状态又有 $N$ 种取值可能，那么 $\textbf{y}$ 就有 $T^N$ 种表示形式。对于解码问题，所求即在所有表现形式中找到对应概率最大的一种。可以采用动态规划的思想，将所求状态序列看作是参数空间中的一个路径，每个状态是路径上的一个节点（注意不是每个时刻），即用动态规划求概率最大路径，也就是维特比方法。

定义在时刻 $t$ 状态为 $s_i$ 的所有单个路径 $y_1,y_2,...,y_t)$ 中概率最大值为
$\delta_{t}(i)=\max\limits_{y_1,\cdots,y_{t-1}}p(y_1,\cdots,y_{t-1},y_t=s_i,x_1,\cdots,x_t|\lambda),i=1,2,\cdots,N$
根据动态规划原理，最优路径具有最优路径中的部分路径仍是最优路径的特性。参考资料[2]中第208页有更具体的描述，参考资料[7]用图给出了更加直观易懂的解释。

可得变量 $\delta$ 的递推公式：
$\delta_{t+1}(i)=\max\limits_{1\le j \le N}{[\delta_t(j)a_{ji}]b_{i,x_{t+1}}}$

注意到 $b_{i,x_{t+1}}$ 的值与 $j$ 的取值无关。另定义在时刻 $t$ 状态为 $s_i$ 的所有单个路径 $y_1,y_2,...,y_t)$ 中概率最大的路径的第 $t - 1$ 个结点为
$\Psi_{t}(i)=\mathop{\arg\max}\limits_{1\le j \le N}[\delta_{t-1}(j)a_{ji}]$

维特比算法求解步骤如下：
step1 初始化，定义
$\delta_1(i)=\pi_i b_{i,x_1}$
step2 递推求最大概率 $\delta_{t}(i)$ 和结点 $\Psi_{t}(i)$
step3 回溯求最优路径的各结点
$i_T^{*}=\mathop{\arg\max}\limits_{1\le j \le N}[\delta_T(j)]$
$i_t^*=\Psi_{t+1}(i_{t+1}^*)$

学习问题

已知 $\textbf{x}$ ，求 $\widehat{\lambda}=\mathop{\arg\max}\limits_{\lambda}{P(\textbf{x}|\lambda)}$ 。即训练模型使其能最好地描述观测数据。常用求解方法有Baum-Welch算法。

Baum-Welch算法
类似于EM算法，有参数 $\theta$ 的迭代公式如下所示：
$\begin{aligned} \lambda^{t+1}&=\mathop{\arg\max}\limits_{\lambda}\sum\limits_{\textbf{y}}\log P(\textbf{x},\textbf{y}|\lambda)P(\textbf{y}|\textbf{x},\lambda^t)\\ &=\mathop{\arg\max}\limits_\lambda\sum\limits_\textbf{y}\log P(\textbf{x},\textbf{y}|\lambda)P(\textbf{x},\textbf{y}|\lambda^t) \end{aligned}$

第二个等号是因为 $P(\textbf{y}|\textbf{x},\lambda^t)=P(\textbf{x},\textbf{y}|\lambda^t)/P(\textbf{x}|\lambda^t)$ 中的分母与 $\lambda$ 无关， $\lambda^t$ 是常数而 $\lambda$ 是变量。

定义函数
$\begin{aligned} Q(\lambda|\lambda^t)&=\sum\limits_{\textbf{y}}\log P(\textbf{x},\textbf{y}|\lambda)P(\textbf{x},\textbf{y}|\lambda^t)\\ &=\sum_{\textbf{y}}{[log{\pi_{y_1}}+log{\prod_{t=1}^{T}a_{y_{t-1},y_t}}+log{\prod_{t=1}^{T}{b_{y_t,x_t}}]}P(\textbf{x},\textbf{y}|\lambda^t)} \end{aligned}$

以参数 $\pi$ 为例，有迭代式
$\begin{aligned} \pi_{t+1}&=\mathop{\arg\max}\limits_{\pi}\sum_{\textbf{y}}{log{\pi_{y_1}}}P(\textbf{x},\textbf{y}|\lambda^t) \\ &=\mathop{\arg\max}\limits_{\pi}\sum_{y_1}\sum_{y_2}...\sum_{y_T}{log{\pi_{y_1}}P(\textbf{x},y_1,...,y_T|\lambda^t)}\\ &=\mathop{\arg\max}\limits_{\pi}\sum_{y_1}[log{\pi_{y_1}}P(\textbf{x},y_1|\lambda^t)](边缘分布思想)\\ &=\mathop{\arg\max}\limits_{\pi}\sum_{i=1}^{N}{log_{\pi_{i}}P(\textbf{x},y_1=s_i|\lambda^t)} \end{aligned}$

另外根据 $\pi$ 的定义，有约束式 $\sum_{i}{\pi_i}=1$ ，则有拉格朗日函数：
$L(\pi,\eta)=\sum_{i=1}^{N}{log_{\pi_{i}}P(\textbf{x},y_1=s_i|\lambda^t)+\eta(\sum_{i=1}^{N}{\pi_i}-1)}$