电信保温杯笔记——《统计学习方法（第二版）——李航》第10章隐马尔可夫模型-优快云博客

本文链接：https://blog.youkuaiyun.com/sinat_39448069/article/details/123338427

电信保温杯笔记——《统计学习方法（第二版）——李航》第10章隐马尔可夫模型

论文
介绍
隐马尔可夫模型
隐马尔可夫模型的作用
- 生成观测序列
- 预测状态序列
隐马尔可夫模型的三个基本问题及其解法
本章概要
相关视频
相关的笔记
相关代码
pytorch API:
tensorflow API

论文

HMM算法：《An introduction to hidden Markov models》、《A tutorial on hidden Markov models and selected applications in speech recognition》
Baum-Welch算法：《A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains》

介绍

电信保温杯笔记——《统计学习方法（第二版）——李航》
本文是对原书的精读，会有大量原书的截图，同时对书上不详尽的地方进行细致解读与改写。

在这里插入图片描述

隐马尔可夫模型

隐马尔可夫模型的定义

在这里插入图片描述

对于NLP的标注问题，就是给句子中每个词标注它的词性，如 n，adj，v 等，状态的集合 Q 为｛n，adj，v…｝，观测值的集合 V 为词的集合。
在这里插入图片描述

隐马尔可夫模型的基本假设

在这里插入图片描述

例子

盒子就是状态，球的颜色就是观测值。
在这里插入图片描述

隐马尔可夫模型的作用

生成观测序列

在这里插入图片描述

例如自动写作。

预测状态序列

在这里插入图片描述

对于NLP的标注问题，就是给句子中每个词标注它的词性，如 n，adj，v 等，状态的集合 Q 为｛n，adj，v…｝，观测值的集合 V 为词的集合，观测序列就是句子。

隐马尔可夫模型的三个基本问题及其解法

三个基本问题

基本问题一：计算观测序列的概率

在这里插入图片描述

基本问题二：估计模型的参数

在这里插入图片描述

基本问题三：计算状态序列的概率

在这里插入图片描述

下面各节将逐一介绍这些基本问题的解法。

基本问题一的解法

在这里插入图片描述

直接计算法

在这里插入图片描述

状态序列组合共有 $N^T$ 种，公式（10.12）共 $2 T$ 个元素相乘。
在这里插入图片描述

向前算法

在这里插入图片描述

$\begin{aligned} \alpha_{t+1}(i) &= P(o_1, o_2, \cdots , o_t, o_{t+1} , i_{t+1} = q_i | \lambda) \\ &= \sum\limits_{j = 1}^N P(o_1, o_2, \cdots , o_t, o_{t+1} , i_t = q_j , i_{t+1} = q_i | \lambda) \\ &= \sum\limits_{j = 1}^N P(o_1, o_2, \cdots , o_t, i_t = q_j , i_{t+1} = q_i | \lambda) P(o_{t+1} | o_1, o_2, \cdots , o_t, i_t = q_j , i_{t+1} = q_i , \lambda) \\ &= \sum\limits_{j = 1}^N P(o_1, o_2, \cdots , o_t, i_t = q_j , i_{t+1} = q_i | \lambda) P(o_{t+1} | i_{t+1} = q_i , \lambda ) \text{（基于假设2）} \\ &= \sum\limits_{j = 1}^N P(o_1, o_2, \cdots , o_t, i_t = q_j , i_{t+1} = q_i | \lambda) b_i(o_{t+1}) \\ &= \sum\limits_{j = 1}^N P(o_1, o_2, \cdots , o_t, i_t = q_j | \lambda) P( i_{t+1} = q_i | o_1, o_2, \cdots , o_t, i_t = q_j , \lambda) b_i(o_{t+1}) \\ &= \sum\limits_{j = 1}^N P(o_1, o_2, \cdots , o_t, i_t = q_j | \lambda) P( i_{t+1} = q_i | i_t = q_j , \lambda) b_i(o_{t+1}) \text{（基于假设1）}\\ &= \sum\limits_{j = 1}^N \alpha_{t}(j) a_{ji} b_i(o_{t+1}) \quad i = 1,2,\cdots, N \quad (10.16) \\ \end{aligned}$
（3）终止
$\begin{aligned} P(O | \lambda) &= P(o_1, o_2, \cdots , o_T | \lambda) \\ &= \sum\limits_{i = 1}^N P(o_1, o_2, \cdots , o_T, i_T = q_i | \lambda) \\ &= \sum\limits_{i = 1}^N \alpha_{T}(i) \quad \quad (10.17) \\ \end{aligned}$
在这里插入图片描述

例子

在这里插入图片描述

向后算法

在这里插入图片描述

（1）
$\begin{aligned} \beta_T(i) &= P( | i_T = q_i , \lambda) = 1 \quad i = 1,2,\cdots , N \quad (10.19) \end{aligned}$
（2）对 $\cdots , 1$
$\begin{aligned} \beta_t(i) &= P( o_{t+1} , o_{t+2} , \cdots , o_T | i_t = q_i , \lambda) \\ &= \sum\limits_{j = 1}^N P( i_{t+1} = q_j , o_{t+1} , o_{t+2} , \cdots , o_T | i_t = q_i , \lambda) \\ &= \sum\limits_{j = 1}^N P( o_{t+1} , o_{t+2} , \cdots , o_T | i_t = q_i , i_{t+1} = q_j ,\lambda) P( i_{t+1} = q_j | i_t = q_i , \lambda) \\ &= \sum\limits_{j = 1}^N P( o_{t+1} , o_{t+2} , \cdots , o_T | i_t = q_i , i_{t+1} = q_j , \lambda) a_{ij} \\ &= \sum\limits_{j = 1}^N P( o_{t+1} , o_{t+2} , \cdots , o_T | i_{t+1} = q_j ,\lambda) a_{ij} \text{（基于假设2）} \\ &= \sum\limits_{j = 1}^N P( o_{t+1} | i_{t+1} = q_j ,\lambda) P( o_{t+2} , \cdots , o_T | i_{t+1} = q_j ,\lambda) a_{ij} \\ &= \sum\limits_{j = 1}^N b_j(o_{t+1}) \beta_{t+1}(j) a_{ij} \quad i = 1,2,\cdots , N \quad (10.20) \end{aligned}$
（3）
$\begin{aligned} P(O | \lambda) &= P(o_1, o_2, \cdots , o_T | \lambda) \\ &= \sum\limits_{i = 1}^N P(o_1, o_2, \cdots , o_T, i_1 = q_i | \lambda) \\ &= \sum\limits_{i = 1}^N P(o_1, o_2, \cdots , o_T, | i_1 = q_i , \lambda) P(i_1 = q_i | \lambda )\\ &= \sum\limits_{i = 1}^N P(o_1, o_2, \cdots , o_T, | i_1 = q_i , \lambda) \pi_i \\ &= \sum\limits_{i = 1}^N P(o_1 | i_1 = q_i , \lambda) P( o_2, \cdots , o_T, | i_1 = q_i , \lambda) \pi_i \\ &= \sum\limits_{i = 1}^N b_i(o_1) \beta_1(i) \pi_i \quad (10.21) \\ \end{aligned}$
在这里插入图片描述

$\begin{aligned} P(O | \lambda) &= P(o_1, o_2, \cdots , o_t , o_{t+1} ,o_{t+2} , \cdots , o_T | \lambda) \\ &= \sum\limits_{i = 1}^N \sum\limits_{j = 1}^N P(o_1, o_2, \cdots , o_t ,i_t = q_i , i_{t+1} = q_j , o_{t+1} ,o_{t+2} ,\cdots , o_T | \lambda) \\ &= \sum\limits_{i = 1}^N \sum\limits_{j = 1}^N P(o_1, o_2, \cdots , o_t ,i_t = q_i | \lambda) P( i_{t+1} = q_j , o_{t+1} ,o_{t+2} ,\cdots , o_T | o_1, o_2, \cdots , o_t ,i_t = q_i , \lambda) \\ &= \sum\limits_{i = 1}^N \sum\limits_{j = 1}^N \alpha_t(i) P( i_{t+1} = q_j , o_{t+1} ,o_{t+2} ,\cdots , o_T | o_1, o_2, \cdots , o_t ,i_t = q_i , \lambda) \\ &= \sum\limits_{i = 1}^N \sum\limits_{j = 1}^N \alpha_t(i) P( o_{t+1} ,o_{t+2} ,\cdots , o_T | o_1, o_2, \cdots , o_t ,i_t = q_i , i_{t+1} = q_j , \lambda) P( i_{t+1} = q_j | o_1, o_2, \cdots , o_t ,i_t = q_i , \lambda) \\ &= \sum\limits_{i = 1}^N \sum\limits_{j = 1}^N \alpha_t(i) P( o_{t+1} ,o_{t+2} ,\cdots , o_T | i_{t+1} = q_j , \lambda) P( i_{t+1} = q_j | i_t = q_i , \lambda) \\ &= \sum\limits_{i = 1}^N \sum\limits_{j = 1}^N \alpha_t(i) P( o_{t+1} ,o_{t+2} ,\cdots , o_T | i_{t+1} = q_j , \lambda) a_{ij} \\ &= \sum\limits_{i = 1}^N \sum\limits_{j = 1}^N \alpha_t(i) a_{ij} P( o_{t+1} | i_{t+1} = q_j , \lambda) P( o_{t+2} ,\cdots , o_T | i_{t+1} = q_j , \lambda) \\ &= \sum\limits_{i = 1}^N \sum\limits_{j = 1}^N \alpha_t(i) a_{ij} b_j(o_{t+1}) \beta_{t+1}(j) \quad (10.22) \\ \end{aligned}$

—些概率与期望值的计算

在这里插入图片描述

$\begin{aligned} P(i_t = q_i, O | \lambda) &= P(o_1, o_2, \cdots , o_t ,i_t = q_i , o_{t+1} ,o_{t+2} ,\cdots , o_T | \lambda) \\ &= P(o_1, o_2, \cdots , o_t ,i_t = q_i | \lambda) P( o_{t+1} ,o_{t+2} ,\cdots , o_T | o_1, o_2, \cdots , o_t ,i_t = q_i , \lambda) \\ &= P(o_1, o_2, \cdots , o_t ,i_t = q_i | \lambda) P( o_{t+1} ,o_{t+2} ,\cdots , o_T | i_t = q_i , \lambda) \\ &= \alpha_t(i) \beta_t(i) \end{aligned}$
在这里插入图片描述

$\begin{aligned} P(i_t = q_i, i_{t+1} = q_j , O | \lambda) &= P(o_1, o_2, \cdots , o_t ,i_t = q_i , i_{t+1} = q_j , o_{t+1} ,o_{t+2} ,\cdots , o_T | \lambda) \\ &= P(o_1, o_2, \cdots , o_t ,i_t = q_i | \lambda) P( i_{t+1} = q_j , o_{t+1} ,o_{t+2} ,\cdots , o_T | o_1, o_2, \cdots , o_t ,i_t = q_i , \lambda) \\ &= \alpha_t(i) P( i_{t+1} = q_j , o_{t+1} ,o_{t+2} ,\cdots , o_T | o_1, o_2, \cdots , o_t ,i_t = q_i , \lambda) \\ &= \alpha_t(i) P( o_{t+1} ,o_{t+2} ,\cdots , o_T | o_1, o_2, \cdots , o_t ,i_t = q_i , i_{t+1} = q_j , \lambda) P( i_{t+1} = q_j | o_1, o_2, \cdots , o_t ,i_t = q_i , \lambda) \\ &= \alpha_t(i) P( o_{t+1} ,o_{t+2} ,\cdots , o_T | i_{t+1} = q_j , \lambda) P( i_{t+1} = q_j | i_t = q_i , \lambda) \\ &= \alpha_t(i) P( o_{t+1} ,o_{t+2} ,\cdots , o_T | i_{t+1} = q_j , \lambda) a_{ij} \\ &= \alpha_t(i) P( o_{t+1} | i_{t+1} = q_j , \lambda) P( o_{t+2} ,\cdots , o_T | i_{t+1} = q_j , \lambda) a_{ij} \\ &= \alpha_t(i) a_{ij} b_j(o_{t+1}) \beta_{t+1}(j) \\ \end{aligned}$
在这里插入图片描述

基本问题二的解法

在这里插入图片描述

监督学习算法

在这里插入图片描述

Baum-Welch 算法

在这里插入图片描述

$I$ 是隐变量。EM算法可以参考电信保温杯笔记——《统计学习方法（第二版）——李航》第9章 EM算法及其推广，如果了解EM算法，下面推导其实可以不用看
在这里插入图片描述

在这里插入图片描述

步骤

在这里插入图片描述

基本问题三的解法

在这里插入图片描述

近似算法

在这里插入图片描述

维特比算法（viterbi）

可以先看看这个视频机器学习-白板推导系列(十四)-隐马尔可夫模型HMM（Hidden Markov Model）

维特比算法其实和向前算法类似，只不过一个是求 max，一个是求 sum，递推的方式都是一样的，等下看公式的时候就知道。
在这里插入图片描述

$\delta$ 记录的是概率， $\Psi$ 记录的是一个状态。
在这里插入图片描述

对比向前算法的递推式：
$\begin{aligned} \alpha_{t+1}(i) &= P(o_1, o_2, \cdots , o_t, o_{t+1} , i_{t+1} = q_i | \lambda) \\ &= \sum\limits_{j = 1}^N \alpha_{t}(j) a_{ji} b_i(o_{t+1}) \quad i = 1,2,\cdots, N \quad (10.16) \\ \end{aligned}$
在这里插入图片描述