00-EM算法

最新推荐文章于 2022-07-13 16:07:29 发布

vikYao

最新推荐文章于 2022-07-13 16:07:29 发布

阅读量708

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/victoryaoyu/article/details/71289472

机器学习专栏收录该内容

1 篇文章

订阅专栏

本文介绍了EM算法在GMM/HMM训练中的应用，详细阐述了极大似然估计和期望最大化算法的原理。在含有隐藏变量的模型中，EM算法用于求解最大似然估计的模型参数。文章通过推导解释了E步和M步的过程，并提及了算法的收敛性。

在GMM/HMM（语音识别）训练过程中，需要使用EM算法进行求解模型参数。所以，本文主要推导一下EM算法。即明白什么是期望最大化？

Outline：

极大似然估计（Maximum Likelihood Estimation, MLE）
期望最大化算法（Expectation Maximization, EM）

我们知道如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法（MLE），或者贝叶斯估计法来估计模型参数（如：求在校学生身高分布）。然而，当模型中含有隐藏变量时，就不能简单地使用这些估计方法（如：《统计学习方法-李航》中的三硬币模型）。所以，在含有隐变量（Latent Variables）统计模型中，就需要利用EM算法来找到符合观测数据的最大似然的模型参数。

1.极大似然估计（Maximum Likelihood Estimation, MLE）

假如有 $n$ 个独立同分布的观测值 $X=(x_1,x_2,\cdots,x_n)$ ，来自一个未知概率密度函数的分布 $f_0(.|\theta)$ 。问题就是怎么从观测值中求出待估参数 $\theta$ ？显然，这里可以利用一种常用的点估计方法——最大似然估计，求待估参数 $\theta$ 。
所有观测的联合密度函数：

f (x 1, x 2, \dots, x n | θ) = f (x 1 | θ) \times f (x 2 | θ) \times \dots \times f (x n | θ)

$f(x_1,x_2,\cdots,x_n|\theta)=f(x_1|\theta)\times f(x_2|\theta)\times \cdots \times f(x_n|\theta)$

$\theta$ 似然函数：

L (θ; x 1, x 2, \dots, x n) = f (x 1, x 2, \dots, x n | θ) = \prod i = 1 n f (x i | θ) l n L (θ; x 1, x 2, \dots, x n) = \sum i = 1 n l n f (x i | θ)

$L(\theta;x_1,x_2,\cdots,x_n)=f(x_1,x_2,\cdots,x_n|\theta)=\prod_{i=1}^nf(x_i|\theta)\\ lnL(\theta;x_1,x_2,\cdots,x_n)=\sum_{i=1}^nlnf(x_i|\theta)$

极大化似然函数：

θ^= a r g m a x θ l n L (θ; x 1, x 2, \dots, x n)

$\hat{\theta}=\mathop{argmax}_{\theta}lnL(\theta;x_1,x_2,\cdots,x_n)$

得到的 $\hat{\theta}$ 作为 $\theta$ 的极大似然估计，这样我们就求出了模型参数了。

2.期望最大化算法（Expectation Maximization,EM）

然而在一些实际问题中，所要求解的概率模型含有Latent Variable，导致无法利用ML直接计算。（注：下式是向量形式，对向量形式求概率实际上对每一个观测值概率做累乘， $\sum_Z$ 是对所以 $z_i$ 求和）

L (θ) = l n P (X | θ) (2.1)

$L(\theta)=lnP(X|\theta) \tag{2.1}$

因为有Latent Variable存在，在求时会遇到困难。所以应把Latent Variable考虑进去求解

L (θ) = l n \sum z P (X, Z | θ) = l n \sum z P (X | Z, θ) P (Z | θ) (2.2)

$\begin{align*} L(\theta)&= ln\sum_z P(X,Z|\theta)\\ &=ln\sum_z P(X|Z,\theta)P(Z|\theta) \tag{2.2} \end{align*}$

我们的目标是最大化 $L(\theta)$ ，即在迭代过程中，让 $L(\theta)\gt L(\theta_n)$ 。相当于最大化

L (θ) - L (θ n) = l n P (X | θ) - l n P (X | θ n) = l n \sum z P (X | Z, θ) P (Z | θ) - l n P (X | θ n) = l n \sum z P (X | Z, θ) P (Z | θ) P ( Z | X , θ n ) P ( Z | X , θ n ) - l n P (X | θ n) \geq \sum Z P (Z | X, θ n) l n P ( X | Z , θ ) P ( Z | θ ) P ( Z | X , θ n ) - l n P (X | θ n) = \sum Z P (Z | X, θ n) l n P ( X | Z , θ ) P ( Z | θ ) P ( Z | X , θ n ) P ( X | θ n ) (2.3) (2.4) (2.5) (2.6)

$\begin{align*} L(\theta)-L(\theta_n)&=lnP(X|\theta)-lnP(X|\theta_n)\\ &=ln\sum_z P(X|Z,\theta)P(Z|\theta)-lnP(X|\theta_n) \tag{2.3}\\ &=ln\sum_z P(X|Z,\theta)P(Z|\theta) \frac{P(Z|X,\theta_n)}{P(Z|X,\theta_n)}-lnP(X|\theta_n) \tag{2.4}\\ &\ge \sum_Z P(Z|X,\theta_n)ln\frac{P(X|Z,\theta)P(Z|\theta)}{P(Z|X,\theta_n)}-lnP(X|\theta_n) \tag{2.5}\\ &=\sum_Z P(Z|X,\theta_n)ln\frac{P(X|Z,\theta)P(Z|\theta)}{P(Z|X,\theta_n)P(X|\theta_n)} \tag{2.6} \end{align*}$

(2.4)到(2.5)， $P(Z|X,\theta_n)$ 满足 $\lambda_i \ge 0$ 且 $\sum_1^n=1$ ，恰好下一步应用Jensen不等式。
(2.4)到(2.5)，利用到了Jensen不等式： $ln\sum_{1}^n \lambda_i x_i \ge \sum_1^n \lambda_i lnx_i$ ; $\lambda_i \ge 0$ 且 $\sum_i^n \lambda_i =1$ 。
(2.5)到(2.6)，利用 $lnP(X|\theta_n)=\sum_Z P(Z|X,\theta_n)lnP(X|\theta_n)$ 。令

l (θ | θ n) = \sum Z P (Z | X, θ n) l n P ( X | Z , θ ) P ( Z | θ ) P ( Z | X , θ n ) P ( X | θ n ) + L (θ n) L (θ) \geq l (θ | θ n) (2.7)

$l(\theta|\theta_n)=\sum_ZP(Z|X,\theta_n) ln \frac{P(X|Z,\theta)P(Z|\theta)}{P(Z|X,\theta_n)P(X|\theta_n)}+L(\theta_n) \tag{2.7} \\ L(\theta) \ge l(\theta|\theta_n)$

当 $\theta=\theta_n$ 时， $L(\theta_n)=l(\theta_n|\theta_n)$ 。即 $l(\theta_n|\theta_n)$ 为 $L(\theta_n)$ 的下界。最大化 $l(\theta_n|\theta_n)$ ，移除常数项

θ n + 1 = a r g m a x θ l (θ n | θ n) = a r g m a x θ {\sum Z P (Z | X, θ n) l n P ( X | Z , θ ) P ( Z | θ ) P ( Z | X , θ n ) P ( X | θ n ) + L (θ n)} = a r g m a x θ {\sum Z P (Z | X, θ n) l n [P (X | Z, θ) P (Z | θ)]} = a r g m a x θ {\sum Z P (Z | X, θ n) l n [P (X | Z, θ)]} = a r g m a x θ {E Z | X, θ n l n P (X, Z | θ)} = a r g m a x θ Q (θ, θ n) (2.8)

$\begin{align*} \theta_{n+1}&=\mathop{argmax}_\theta l(\theta_n|\theta_n) \\ &=\mathop{argmax}_\theta \left \{ \sum_ZP(Z|X,\theta_n) ln \frac{P(X|Z,\theta)P(Z|\theta)}{P(Z|X,\theta_n)P(X|\theta_n)}+L(\theta_n) \right \} \\ &=\mathop{argmax}_\theta \left \{ \sum_ZP(Z|X,\theta_n) ln\left [P(X|Z,\theta)P(Z|\theta)\right ] \right \} \\ &=\mathop{argmax}_\theta \left \{ \sum_ZP(Z|X,\theta_n) ln \left [ P(X|Z,\theta) \right ] \right \} \tag{2.8} \\ &=\mathop{argmax}_\theta \left \{ E_{Z|X,\theta_n} ln P(X,Z|\theta) \right \} \\ &=\mathop{argmax}_\theta Q(\theta, \theta_n) \end{align*}$

以上就是EM算法的导出过程。 $Q(\theta, \theta_n)$ 是指完全数据的对数似然函数 $\ln[P(X,Z|、theta)]$ 关于给定观测数据 $X$ 和当前参数 $\theta_n$ 下对未观测数据 $Z$ 的条件概率分布 $P(Z|X,\theta_n)$ 的期望。这也是为什么叫期望最大化算法的缘故！即
- Expectation-Step: 确定条件期望 $Q(\theta, \theta_n)$
- Maximization-Step: 最大化期望值，更新 $\theta_{n+1}=\mathop{argmax}_\theta Q(\theta, \theta_n)$

但实际使用中，可能有点misnomer。因为我们这样使用：
1. 选择初始值，开始迭代；
2. E-step:计算的是有关 $Q(\theta, \theta_n)$ 固定的数据依赖的参数；
3. M-step:更新模型参数 $\theta_{n+1}$ ；
4. 重复2, 3，直至收敛