HMM（2）

最新推荐文章于 2022-12-17 13:10:53 发布

bingxiash

最新推荐文章于 2022-12-17 13:10:53 发布

阅读量472

点赞数

分类专栏：机器学习算法

本文链接：https://blog.youkuaiyun.com/u014168855/article/details/105149254

版权

机器学习算法专栏收录该内容

18 篇文章

订阅专栏

1.前向和后向概率的关系
（1）前向概率： $\alpha_{t}(i)=P\left(y_{1}, y_{2}, \cdots y_{t}, q_{t}=i | \lambda\right)$
（2）后向概率： $\beta_{t}(i)=P\left(y_{t+1}, y_{t+2}, \cdots, y_{T} | q_{t}=i, \lambda\right)$
在这里插入图片描述
（3)关系：
$\begin{aligned} &P\left(i_{t}=q_{i}, O | \lambda\right)\\ &=P\left(\left.O\right|{i_{t}}=q_{i}, \lambda\right) P\left(i_{t}=q_{i} | \lambda\right)\\ &=P\left(o_{1}, \cdots o_{t}, o_{t+1}, \cdots o_{T} | i_{t}=q_{i}, \lambda\right) P\left(i_{t}=q_{i} | \lambda\right)\\ &=P\left(o_{1}, \cdots o_{t} | i_{t}=q_{i}, \lambda\right) P\left(o_{t+1}, \cdots o_{T} | i_{t}=q_{i}, \lambda\right) P\left(i_{t}=q_{i} | \lambda\right)\\ &=P\left(o_{1}, \cdots o_{t}, i_{t}=q_{i} | \lambda\right) P\left(o_{t+1},\left.\cdots o_{T}\right|i_{t}=q_{i}, \lambda\right)\\ &=\alpha_{t}(i) \beta_{t}(i) \end{aligned}$
2.单个状态的概率
给定模型 $\lambda$ 以及观测序列 $O$ ，在时刻t处于状态 $q_i$ 的概率，记： $\gamma_{t}(i)=P\left(i_{t}=q_{i} | O, \lambda\right)$
根据前向后向概率的定义：
$\begin{array}{c} P\left(i_{t}=q_{i}, O | \lambda\right)=\alpha_{t}(i) \beta_{t}(i) \\ \gamma_{t}(i)=P\left(i_{t}=q_{i} | O, \lambda\right)=\frac{P\left(i_{t}=q_{i}, O | \lambda\right)}{P(O | \lambda)} \\ \gamma_{t}(i)=\frac{\alpha_{t}(i) \beta_{t}(i)}{P(O | \lambda)}=\frac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{i=1}^{N} \alpha_{t}(i) \beta_{t}(i)} \end{array}$
$\gamma$ 的意义：
在每个时刻t选择在该时刻最有可能出现的状态 $\hat{\mathbf{1}}_{\mathbf{t}}^{*}$ ，从而得到一个状态序列 $I^{*}=\left\{i_{1}^{*}, i_{2}^{*} \cdots i_{\mathrm{T}}^{*}\right\}$ ，将他作为预测的结果。
给定模型和观测序列，时刻t处于 $q_i$ 的概率为：
$\gamma_{t}(i)=\frac{\alpha_{t}(i) \beta_{t}(i)}{P(O | \lambda)}=\frac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{t=1}^{N} \alpha_{t}(i) \beta_{t}(i)}$
3.两个状态的概率
$\begin{array}{c} \xi_{t}(i, j)=P\left(i_{t}=q_{i}, i_{t+1}=q_{j} | O, \lambda\right) \\ =\frac{P\left(i_{t}=q_{t}, i_{t+1}=q_{j}, O | \lambda\right)}{P(O | \lambda)} \\ =\frac{P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O | \lambda\right)}{\sum_{i=1}^{N} \sum_{j=1}^{N} P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O | \lambda\right)} \\ P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O | \lambda\right)=\alpha_{t}(i) a_{i j} b_{j o_{t 1}} \beta_{t+1}(j) \end{array}$
4.期望
在观测O下状态i出现的期望：
$\sum_{t=1}^{T} \gamma_{t}(i)$
在观测O下状态i转移到状态j的期望：
$\sum_{t=1}^{T-1} \xi_{t}(i, j)$
5.学习算法：
若训练数据包含观测序列和状态序列，则HMM的学习非常简单，是监督学习，若训练数据只有观测序列，则HMM的学习需要使用EM算法，是非监督学习。
假设已给定训练数据包含S个长度相同的观测序列和对应的观测序列
$\left\{\left(\mathrm{O}_{1}, \mathrm{I}_{1}\right),\left(\mathrm{O}_{2}, \mathrm{I}_{2}\right) \ldots\right. \left.\left(O_{s}, I_{s}\right)\right\}$ ，那么，可以直接利用Bernoulli大数定理的结论“频率的极限是概率”，给出HMM的参数估计。
（1）监督学习：
初始概率： $\hat{\pi}_{i}=\frac{\left|q_{i}\right|}{\sum_{i}\left|q_{i}\right|}$
转移概率： $\hat{a}_{i j}=\frac{\left|q_{i j}\right|}{\sum_{j=1}^{N}\left|q_{i j}\right|}$
观测概率： $\hat{b}_{i k}=\frac{\left|s_{i k}\right|}{\sum_{k=1}^{M}\left|s_{i k}\right|}$
在这里插入图片描述
(2)Baum-Welch算法
所有观测数据写成 $\mathrm{O}=\left(\mathrm{o}_{1}, \mathrm{o}_{2} \dots \mathrm{o}_{\mathrm{T}}\right)$ ，所有隐数据写成 $\mathrm{I}=\left(\mathrm{i}_{1}, \mathrm{i}_{2} \dots \mathrm{i}_{\mathrm{T}}\right)$ ，完全数据是 $(\mathrm{O}, \mathrm{I})=\left(\mathrm{o}_{1}, \mathrm{o}_{2} \dots \mathrm{o}_{\mathrm{T}}, \mathrm{i}_{1}, \mathrm{i}_{2} \dots \mathrm{i}_{\mathrm{T}}\right)$ ，完全数据的对数似然是 $\ln \mathrm{P}(\mathrm{O}, \mathrm{I} | \lambda)$
假设 $\bar{\lambda}$ 是HMM参数当前的估计值， $\lambda$ 是当前的参数。
$\begin{aligned} &Q(\lambda, \bar{\lambda})=\sum_{I}(\ln P(O, I | \lambda)) P(I | O, \bar{\lambda})\\ &=\sum_{I} \ln P(O, I | \lambda) \frac{P(O, I | \bar{\lambda})}{P(O, \bar{\lambda})}\\ &\propto \sum_{I} \ln P(O, I | \lambda) P(O, I | \bar{\lambda}) \end{aligned}$
EM过程：
在这里插入图片描述