HMM: (例如:在分词上的应用:观测x为单词,状态y为词性)

1.HMM存在两个假设:
1)当前的状态yt只依赖于前一个状态yt-1
2)任意时刻的观测xt只依赖于该时刻的状态yt
2.利用三个要素来模拟时序序列的发生过程:初始状态向量π
、状态转移概率矩阵A、观测概率矩阵B。
1)初始状态向量π
:即统计每一句话的第一个字的状态频次比上这个字为其他所有状态(即y1的所有取值)之和。
2)状态转移概率矩阵A:即从状态si到sj的转移频次比上状态为si转为其他所有状态的频次之和。
3)观测概率矩阵B:即状态为si且观测为xj的频次比上状态为si时到其他所有观测x的频次之和。

3.三个基本用法:
1)样本生成问题:给定(π
,A,B)生成满足约束的样本{x(i),y(i)}
2)模型训练问题:给定{x(i),y(i)},估计模型参数(π
,A,B)
3)序列预测问题:给定(π
,A,B)和观测序列x,求最可能的状态序列y
4.先根据语料库训练出来模型参数,接下来可以根据模型参数来解决序列预测问题,分词时可以用到维特比算法:即求得概率最大的状态序列,其核心思想是如果最终的最优路径经过某个节点oi,那么从初始节点到oi-1点的路径必然也是一个最优路径。
本文详细介绍了隐马尔可夫模型(HMM)的基本原理,包括其两个关键假设、模型构成的三个要素,以及在样本生成、模型训练和序列预测中的应用,特别强调了维特比算法在分词中的实际操作。
992

被折叠的 条评论
为什么被折叠?



