由于HMM是自然语言处理中非常重要且基础的模型,因此这里基于52nlp的HMM进行学习,并作如下笔记:
HMM包含两组状态和三组概率集合:
- 隐藏状态:一个系统的(真实)状态,可以由一个马尔科夫过程进行描述(例如:天气)。
- 观察状态:在这个过程中“可视”的状态(例如:海藻的湿度)。
- pi向量:包含了(隐)模型在时间t=1时一个特殊的隐藏状态的概率(初始概率)。
- 状态转移矩阵:包含了一个隐藏状态到另一个隐藏状态的概率(并不随时间变化而不同,这一点非常重要,但常常不符合实际)。
- 混淆矩阵:包含了给定隐马尔科夫模型的某一个特殊的隐藏状态,观察到的某个观察状态的概率(注意:矩阵的每一行之和为1)。
在状态转移矩阵及混淆矩阵中的每一个概率都是时间无关的,也就是说,当系统演化时这些矩阵并不随时间改变。实际上,这时马尔科夫模型关于真实世界最不显示的一个假设。
由一个向量和两个矩阵(pi,A,B)描述的隐马尔可夫模型对于实际系统有着巨大的价值,虽然经常只是一种近似,但它们却是经得