隐含马尔科夫模型(HMM)原理及其实现

最新推荐文章于 2024-01-20 12:14:50 发布

原创最新推荐文章于 2024-01-20 12:14:50 发布 · 1.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#隐含马尔科夫模型 #HMM #NLP

nlp 专栏收录该内容

2 篇文章

订阅专栏

本文深入探讨了隐含马尔科夫模型（HMM）的基本原理，包括其数学表达方式及训练方法。从贝叶斯公式出发，详细介绍了如何通过HMM估计源信息序列，并讲解了两种训练方式——有监督训练与无监督训练，特别是鲍姆-韦尔奇算法在无监督训练中的应用。

隐含马尔科夫模型（Hidden Markov Model）

公式推导

$s_1,s_2,\cdots,s_n\ = \ \underbrace{Arg}_{s_1,s_2,\cdots,s_n\in S}\ Max\ P(s_1,s_2,\cdots,s_n|o_1,o_2,\cdots,o_n)\ \ \ \ \ \cdots\cdots①$

注： $S$ 为所有可能的源信息， $o_1,o_2,\cdots,o_n$ 是接受到的观测信息

我们可以将①式利用贝叶斯公式来间接计算：

$P (s 1, s 2, \dots, s n | o 1, o 2, \dots, o n) = P ( o 1 , o 2 , \dots , o n | s 1 , s 2 , \dots , s n ) \cdot P ( s 1 , s 2 , \dots , s n ) P ( o 1 , o 2 , \dots , o n ) = k \cdot P (o 1, o 2, \dots, o n | s 1, s 2, \dots, s n) \cdot P (s 1, s 2, \dots, s n) \dots \dots ②$ $P(s_1,s_2,\cdots,s_n|o_1,o_2,\cdots,o_n)\ = \ \frac{P(o_1,o_2,\cdots,o_n|s_1,s_2,\cdots,s_n)\cdot P(s_1,s_2,\cdots,s_n)}{P(o_1,o_2,\cdots,o_n)}\ =\ k\cdot P(o_1,o_2,\cdots,o_n|s_1,s_2,\cdots,s_n)\cdot P(s_1,s_2,\cdots,s_n)\ \ \ \ \ \cdots\cdots②$

对于②式我们可以利用隐含马尔科夫模型(Hidden Markov Model)来估计。

P (o 1, o 2, \dots, o n | s 1, s 2, \dots, s n) = \prod t = 1 n P (o t | s t) \dots \dots ③

$P(o_1,o_2,\cdots,o_n|s_1,s_2,\cdots,s_n)\ = \ \prod_{t=1}^{n}P(o_t|s_t)\ \ \ \ \ \ \cdots\cdots③$

P (s 1, s 2, \dots, s n) = \prod t = 2 n P (s t | s t - 1) \dots \dots ④

$P(s_1,s_2,\cdots,s_n)\ =\ \prod_{t=2}^{n}P(s_t|s_{t-1})\ \ \ \ \cdots\cdots④$

这样，有③和④两式就求解了②式

HMM的训练

要利用隐含马尔科夫模型解决实际问题，那么我们必须事先知道它的参数，即要知道由前一个状态 $S_{t-1}$ 进入当前状态 $S_t$ 的概率 $P(S_t|S_{t-1})$ ，称之为转移概率（Transition Probability），以及每个状态 $S_t$ 产生相应输出 $O_t$ 的概率 $P(O_t|S_t)$ ，称之为生成概率（Generation Probability），得到这些参数的过程就是模型的训练

$P(O_t|S_t)\ =\ \frac{P(O_t,\ S_t)}{P(S_t)}\ \ \ \cdots\cdots⑤$ $P(S_t|S_{t-1})\ = \ \frac{P(S_{t-1},\ S_t)}{P(S_{t-1})}\ \ \ \cdots\cdots⑥$

现在如果有足够多的人工标记数据，那么我们可以知道经过状态 $S_t$ 有多少次记为#( $S_t$ )，以及经过这个状态而产生的输出 $O_t$ 的次数，就可以知道有多少次#( $S_t,\ O_t$ )，那么上式⑤就为，

$P(O_t|S_t)\ \approx\ \frac{\#(S_t,\ O_t)}{\#(S_t)}$

而这种数据集均是有标记的，因此为有监督的训练方法(Supervised Training)，而对于式⑥我们直接利用统计语言模型 $P(\omega_i|\omega_{i-1})\ \approx\ \frac{\#(\omega_{i-1},\ \omega_i)}{\#(\omega_{i-1})}$ 即可得到

另外，如果我们仅仅通过大量观测到的信号 $O_1,O_2,\cdots,O_n$ 来计算(估计)模型参数，这种就为无监督的训练方法(Unsupervised Training)，而这就要提到鲍姆-韦尔奇算法（Baum-Welch Algorithm）
- 两个不同的HMM可以产生同样的信号 O1,O2,⋯,On ，因此仅仅通过观测信号来推断产生它的HMM，这样就会可能有多个HMM适合，但是总会有一个模型参数 Mθ2 要比另一个 Mθ1 更加可能产生这个观测到的输出，而鲍姆-韦尔奇算法就是找到这个最有可能的参数 Mθ^
  1. 我们找到一组能够产生输出序列 $O_1,O_2,\cdots,O_n$ 的一组模型参数，记为 $M_{\theta0}$
  2. 由这个初始模型，接着利用Forward-Backward算法得到由某个可能的输入 $S_1,S_2,\cdots,S_n\in S$ 产生 $O_1,O_2,\cdots,O_n$ 的概率 $P(O_1,O_2,\cdots,O_n|M_{\theta0})$ ，以及利用维特比算法(Viterbi Algorithm)得出那个最可能产生这个输出 $O_1,O_2,\cdots,O_n$ 的状态序列，以及产生 $O_1,O_2,\cdots,O_n$ 过程中所有可能路径及其概率，这样就可以得到新的模型参数 $M_{\theta1}$ ,至此完成了一次迭代，可以证明 $P(O_1,O_2,\cdots,O_n|M_{\theta1}) > P(O_1,O_2,\cdots,O_n|M_{\theta0})$
  3. 接着继续按照步骤2的过程迭代，直到模型质量不再明显提高为止
- 值得一提的是，鲍姆-韦尔奇算法每一次迭代就是不断的估计新的HMM参数，而使得 $O_1,O_2,\cdots,O_n$ 的概率达到最大化，这个过程被称之为期望值最大化(Expectation-Maximization)过程，但是EM过程只能保证收敛到一个局部最优解，而不能找打全局最优解，因此在相关的NLP的应用中，如词性标注(Part-of-Speech tagging)，往往会使用人工标记数据这种有监督的训练方法，因为它能够收敛于全局最优解。当然，如果我们的目标函数为一个凸函数(只有一个最优点)，这种情况EM过程就能找到最价值。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。