【20210920】HMM入门

Yang SiCheng

于 2021-09-22 22:01:49 发布

阅读量1.1k

点赞数 2

分类专栏：小白学习文章标签：语音识别自然语言处理机器学习人工智能

本文链接：https://blog.youkuaiyun.com/qq_41897800/article/details/120394965

版权

小白学习专栏收录该内容

25 篇文章

订阅专栏

隐马尔可夫模型 Hidden Markov Model

1. 马尔可夫过程简介
2. {A、B、 $\pi$ }
3. 引入 $\alpha,\beta$ 便于Evaluate
4. EM算法参数学习
小结

本文参考的视频链接

首先要知道什么式序列（Series），什么是集合（Set）

时间序列模型 Discrete Dynamic Model: Hidden Markov Model

$\begin{aligned} & P\left(X_{t} | X_{t-1}, X_{t-2} \ldots . X_{1}\right) \\ =& P\left(X_{t} \mid X_{t-1}\right)\tag{1} \end{aligned}$

1. 马尔可夫过程简介

在这里插入图片描述

在我们知道一系列隐状态之后，我们的观测都是独立的

股市中的箭头的数值指的就是式(1)的概率值

为了所有的符号一致，现在把所有的隐状态记为q：

$p(q_t|q_{t-1})$ →transition probability（转移概率，在HMM里面，一定是离散的）
$p(y_t|q_t)$ →emission/measurement probability（发射概率，并不一定是离散的）

这两个概率决定了HMM模型

在语音里面的应用如下所示（音标是隐变量）

在这里插入图片描述
HMM图模型

知道隐状态之后，观测都是独立的！

在这里插入图片描述

2. {A、B、 $\pi$ }

在HMM里面，transition probability用一个矩阵（k×k）来表示：

在这里插入图片描述

我们用一个 $A_{k×k}$ 的矩阵代表 $p(q_t|q_{t-1})$
假设 $p(y_t|q_t)$ 是离散的，我们用一个 $B_{k×L}$ 来表示

在这里插入图片描述
现在思考，是否只有 $\lambda=\{A,B\}$ 便可以描述HMM模型

所以请思考，怎么计算股票观测到 $P(y_1=up,y_2=up,y_3=down)$ 的概率？

我们知道： $P(x)=\int_{y} P(x, y) d y$
所以原概率可以转化为：
$\begin{aligned} P\left(y_{1}, y_{2}, y_{3}\right)&=\sum_{q_1=1}^{k} \sum_{q_2=1}^{k} \sum_{q_{3}=1}^{k} p\left(y_{1}, y_{2}, y_{3}, q_{1}, q_{2}, q_{3}\right)\\ &=\sum_{q_1=1}^{k} \sum_{q_2=1}^{k} \sum_{q_{3}=1}^{k}p(y_3|y_{1}, y_{2}, q_{1}, q_{2}, q_{3})\times p(y_{1}, y_{2}, q_{1}, q_{2}, q_{3})\\ &=\sum_{q_1=1}^{k} \sum_{q_2=1}^{k} \sum_{q_{3}=1}^{k}p(y_3|q_{3})\times p(y_{1}, y_{2}, q_{1}, q_{2}, q_{3})\\ &=\sum_{q_1=1}^{k} \sum_{q_2=1}^{k} \sum_{q_{3}=1}^{k}p(y_3|q_{3})\times p(q_{3}|y_{1}, y_{2}, q_{1}, q_{2})\times ({y_{1}, y_{2}, q_{1}, q_{2}})\\ &=\sum_{q_1=1}^{k} \sum_{q_2=1}^{k} \sum_{q_{3}=1}^{k}p(y_3|q_{3})\times p(q_{3}|q_{2})\times ({y_{1}, y_{2}, q_{1}, q_{2}})\\ &=\sum_{q_1=1}^{k} \sum_{q_2=1}^{k} \sum_{q_{3}=1}^{k}p(y_3|q_{3})\times p(q_{3}|q_{2})\times p(y_2|q_{2})\times p(q_{2}|q_{1})\times p(y_1|q_{1})\times p(q_{1}) \end{aligned}$
所以现在还差了一个 $p(q_1)$ ，所以现在需要一个初始状态的概率，所以我们还需要一个参数 $\pi$
在这里插入图片描述

HMM三个主要的操作如下：
$\begin{aligned} &\text { Evaluate } p(Y \mid \lambda) \\ &\lambda_{\text {MLE }}=\underset{\lambda}{\arg \max } p(Y \mid \lambda) \\ &\underset{Q}{\arg \max } p(Y \mid Q, \lambda) \end{aligned}$
下面首先讨论Evaluation

如何应用HMM，以语音识别为例，例如找50个人说同样的cat或者dog…

$\lambda_{cat} = \argmax_{\lambda} logP(y_{(1)}^{(1)},y_{(2)}^{(2)}...|\lambda)$
之后我们想要干嘛？语音识别，有个人说了一段从来没有听说过的录音，现在可以去评估说哪个单词的概率最高，即Evaluate

下面来看Evaluation，即有了 $\lambda$ 来估计观测值：
$P\left(y_{1} ... y_{T} \mid \lambda\right)$

$=\sum_{q_{1}=1}^{k} \sum_{q_{2}=1}^{k} \ldots \sum_{q_{T}=1}^{k} \underbrace{P\left(y_{1} \ldots . y_{T}, q_{1} \ldots q_{T}\right)}$

通常计算的方法如下所示：通常计算的方法如下所示：
$\begin{aligned} p(Y \mid \lambda) &=\sum_{Q}[p(Y, Q \mid \lambda)]=\sum_{q_{1}=1}^{k} \ldots, \sum_{q_{T}=1}^{k}\left[p\left(y_{1}, \ldots, y_{T}, q_{1}, \ldots q_{T} \mid \lambda\right)\right] \\ &=\sum_{q_{1}=1}^{k} \ldots, \sum_{q_{T}=1}^{k}\left[p\left(y_{1}, \ldots, y_{T}, q_{0}, q_{1}, \ldots q_{T} \mid \lambda\right)\right] \\ &=\sum_{q_{1}=1}^{k} \ldots, \sum_{q_{T}=1}^{k} p\left(q_{1}\right) p\left(y_{1} \mid q_{1}\right) p\left(q_{2} \mid q_{1}\right) \ldots p\left(q_{t} \mid q_{t-1}\right) p\left(y_{t} \mid q_{t}\right) \\ &=\sum_{q_{1}=1}^{k} \ldots, \sum_{q_{T}=1}^{k} \pi\left(q_{1}\right) \prod_{t=2}^{T} a_{q_{t-1}, q_{t}} \prod_{t=1}^{T}b_{q_{t}}\left(y_{t}\right) \end{aligned}$

其中，定义转移概率为转移概率矩阵的第 $i$ 行，第 $j$ 列： $p\left(q_{t}=j \mid q_{t-1}=i\right) \equiv a_{i, j}$ ，同时定义测量概率为： $p\left(y_{t} \mid q_{t}=j\right) \equiv b_{j}\left(y_{t}\right)$ 。注意到这里有 $k^T$ 个可能的 $Q$ 值，所以我们需要更简单的方法。

3. 引入 $\alpha,\beta$ 便于Evaluate

存在的问题，运算量太大了！所以这里假设一个 $\alpha$ 和 $\beta$
在这里插入图片描述
联合概率：
$\alpha_{i}(t)=p\left(y_{1}, y_{2}, \ldots y_{t}, q_{t}=i \right)$
按照以上概率：
$\alpha_{i}(1)=p\left(y_{1}, q_{1}=i \right)=p(y_1|q_{1}=i)\times p(q_{1}=i)=b_i(y_1) \cdot \pi(q_1)$

对于 $\alpha_i(2)$ ，由于 $P\left(y_{2} \mid q_{2}=j\right)$ 一项与 $i$ 没有关系：

$\begin{aligned} \alpha_{i}(2)&=p(y_1,y_2,q_2=j)\\ &=\sum_{i=1}^{k}p(y_1,y_2,q_1=i,q_2=j)\\ &=\sum_{i=1}^{k}p\left(y_{2} \mid q_{2}=j\right) \cdot p\left(q_{1}=j \mid q_1=i\right) \cdot \underbrace{p\left(y_{1}, q_{1}=i\right)}_{\alpha_{i}(1)}\\ &=\underbrace{p\left(y_{2} \mid q_{2}=j\right)}_{b_j(y_2)}\sum_{i=1}^{k}\underbrace{p\left(q_{1}=j \mid q_1=i\right)}_{a_{i,j}}\alpha_{i}(1)\\ &=b_j(y_2)\sum_{i=1}^{k}a_{i,j}\alpha_{i}(1)\\ &...\\ \alpha_{j}(t+1)&=\left[\sum_{i=1}^{k} \alpha_{i}(t) a_{i, j}\right] b_{j}\left(y_{t+1}\right)\\ &...\\ \alpha_{i}(T)&=b_{j}\left(y_{T}\right)\left[\sum_{i=1}^{k} a_{i, j} \alpha_{i}(T-1)\right] \end{aligned}$

现在只有 $k\times T$ 个运算量而不是 $K^T$ 了，所以到此为止，我们定义了前向过程：
$\alpha_{i}(t)=p\left(y_{1}, y_{2}, \ldots y_{t}, q_{t}=i \mid \lambda\right) \Longrightarrow p(Y \mid \lambda)=\sum_{i=1}^{k} \alpha_{i}(T)$

这是最后在t时处于状态i部分序列 $y_1,\dots,y_t$ 的概率。

现在的运算量只有KT而不是K^T：
${P\left(y_{1} \ldots y_{T}\right)}{=\sum_{j=1}^{k} \alpha_{j}(T)}$
在这里插入图片描述

在这里插入图片描述
以上讲解的都是Evaluate，现在讲怎么把 $\lambda$ 学出来

4. EM算法参数学习

EM算法：

$\theta^{(g+1)}=\underset{\theta}{\operatorname{argmax}} \int_{Q} \log P(Y, Q) \cdot P\left(Q \mid Y ,\theta^{(g)}\right) \cdot d Q$
因为 $P\left(Q ,Y \mid\theta^{(g)}\right)$ = $P\left(Q \mid Y ,\theta^{(g)}\right) \cdot P(Y \mid \theta^{(g)})$ ，由于最后一项与 $\theta$ 没有关系，与 $Q$ 没有关系，这是一个常数，乘不乘对结果没有影响，所以我们写成：
$\theta^{(g+1)}=\underset{\theta}{\operatorname{argmax}} \int_{Q} \log P(Y, Q) \cdot P\left(Q ,Y \mid\theta^{(g)}\right) \cdot d Q$
之前我们已经知道：
$\begin{aligned} p(Y \mid \lambda) &=\sum_{Q}[p(Y, Q \mid \lambda)]=\sum_{q_{1}=1}^{k} \ldots, \sum_{q_{T}=1}^{k}\left[p\left(y_{1}, \ldots, y_{T}, q_{1}, \ldots q_{T} \mid \lambda\right)\right] \\ &=\sum_{q_{1}=1}^{k} \ldots, \sum_{q_{T}=1}^{k}\left[p\left(y_{1}, \ldots, y_{T}, q_{0}, q_{1}, \ldots q_{T} \mid \lambda\right)\right] \\ &=\sum_{q_{1}=1}^{k} \ldots, \sum_{q_{T}=1}^{k} p\left(q_{1}\right) p\left(y_{1} \mid q_{1}\right) p\left(q_{2} \mid q_{1}\right) \ldots p\left(q_{t} \mid q_{t-1}\right) p\left(y_{t} \mid q_{t}\right) \\ &=\sum_{q_{1}=1}^{k} \ldots, \sum_{q_{T}=1}^{k} \pi\left(q_{1}\right) \prod_{t=2}^{T} a_{q_{t-1}, q_{t}} b_{q_{t}}\left(y_{t}\right) \end{aligned}$
所以前一个式子即为：
$\begin{aligned} \theta^{(g+1)}&=\underset{\theta}{\operatorname{argmax}} \int_{Q} \log [ p\left(q_{1}\right) \prod_{t=2}^{T} a_{q_{t-1}, q_{t}} \prod_{t=1}^{T}b_{q_{t}}\left(y_{t}\right)] \cdot P\left(Q ,Y \mid\theta^{(g)}\right) \cdot d Q\\ &=\sum_{q_{1}=1}^{k} \ldots, \sum_{q_{T}=1}^{k} [\log \pi\left(q_{1}\right) +\sum_{t=2}^{T} \log a_{q_{t-1}, q_{t}}+ \sum_{t=1}^{T}\log b_{q_{t}}\left(y_{t}\right)] \cdot P\left(Q ,Y \mid\theta^{(g)}\right)\\ \end{aligned}$
在这里插入图片描述

对于每一个term，可以分别由观测数据学习其对应参数，例如对于 $\pi$ ：
$\mathcal{Q}^{\operatorname{term} 1}=\sum_{q_{0}=1}^{k} \cdots \sum_{q_{T}=1}^{k} \ln \pi_{q_{0}} p\left(q, Y \mid \lambda^{(g)}\right)=\sum_{i=1}^{k} \ln \pi_{i} p\left(q_{0}=i, Y \mid \lambda^{(g)}\right)$
约束条件：
$\arg \max \left(\mathcal{Q}^{\text {term } 1}\right) \text { with } \sum_{i=1}^{k} \pi_{i}=1$
使用拉格朗日中值定理：
$\mathbb{L M}^{\text {term } 1}=\sum_{i=1}^{k} \ln \pi_{i} p\left(q_{0}=i, Y \mid \lambda^{(g)}\right)+\tau\left(\sum_{i=1}^{k} \pi_{i}-1\right)$
对两项求导，令其等于0：
$\frac{\partial \mathbb{L} \mathbb{M}^{\text {term } 1}}{\partial \pi_{i}}=\frac{p\left(q, Y \mid \lambda^{(g)}\right)}{\pi_{j}}+\tau=0 \quad \frac{\partial \mathbb{L} \mathbb{M}^{\text {term } 1}}{\partial \tau}=\sum_{i=1}^{k} \pi_{i}-1=0$
$p\left(q_{0}=i, Y \mid \lambda^{(g)}\right)=-\tau \pi_{i}$
为了使用到约束条件，两边相加：
$\sum_{i=1}^{k} p\left(q_{0}=i, Y \mid \lambda^{(g)}\right)=-\tau \sum_{i=1}^{k} \pi_{i}=-\tau$
代入可得：
$\pi_{i}=\frac{p\left(q_{0}=i, Y \mid \lambda^{(g)}\right)}{-\tau} \Longrightarrow \pi_{i}=\frac{p\left(q_{0}=i, Y \mid \lambda^{(g)}\right)}{\sum_{i=1}^{k} p\left(q_{0}=i, Y \mid \lambda(g)\right)}$
在这里插入图片描述