EM算法原理介绍

最新推荐文章于 2025-05-19 16:47:35 发布

原创

最新推荐文章于 2025-05-19 16:47:35 发布 · 2.5k 阅读

11 ·

CC 4.0 BY-SA版权

1. 引言

EM算法是Dempster等人在1977年提出来的一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计或极大后验概率估计。EM算法的每次迭代由两步组成：E步，求期望；M步，求极大，因此，该算法也被称为期望极大算法，简称EM算法。

2. EM算法原理介绍

2.1 EM算法的原理

一般地，用 $Y$ 表示观测随机变量的数据， $Z$ 表示隐随机变量的数据， $Y$ 和 $Z$ 连在一起称为完全数据，观测数据 $Y$ 又称为不完全数据。假设给定观测数据 $Y$ ，其概率分布是 $\theta)$ ，其中 $θ\theta$ 是需要估计的模型参数，那么不完全数据 $Y$ 的似然函数是 $\theta)$ ，对数似然函数是 $L(θ)=log⁡P(Y∣θ)L(\theta)=\log P(Y | \theta)$ ，假设 $Y$ 和 $Z$ 的联合概率分布是 $\theta)$ ，那么完全数据对数似然函数是 $log⁡P(Y,Z∣θ)\log P(Y, Z | \theta)$ 。

EM算法就是通过极大化不完全数据 $Y$ 的对数似然函数来对参数 $θ\theta$ 进行估计，即极大化：
$\begin{aligned} L(\theta) &=\log P(Y | \theta)=\log \sum_{Z} P(Y, Z | \theta) \\ &=\log \left(\sum_{Z} P(Y | Z, \theta) P(Z | \theta)\right) \end{aligned}$ 由于上式中含有未观测的数据和求和的对数，因此，没法直接对参数进行极大化估计。事实上，EM算法是通过迭代逐步近似极大化 $L(θ)L(\theta)$ ，假设在第 $i$ 次迭代后 $θ\theta$ 的估计值是 $θ(i)\theta^{(i)}$ ，我们希望估计值 $θ\theta$ 能使 $L(θ)L(\theta)$ 增加，即 $L(θ)>L(θ(i))L(\theta)>L\left(\theta^{(i)}\right)$ ，并逐步达到极大值，因此，可以直接考虑两者的差：
$L(\theta)-L\left(\theta^{(i)}\right)=\log \left(\sum_{Z} P(Y | Z, \theta) P(Z | \theta)\right)-\log P\left(Y | \theta^{(i)}\right)$ 利用Jensen不等式可以得到其下界：
$\begin{aligned} L(\theta)-L\left(\theta^{(i)}\right) &=\log \left(\sum_{Z} P\left(Z | Y, \theta^{(i)}\right) \frac{P(Y | Z, \theta) P(Z | \theta)}{P\left(Z | Y, \theta^{(i)}\right)}\right)-\log P\left(Y | \theta^{(i)}\right) \\ & \geqslant \sum_{Z} P\left(Z | Y, \theta^{(i)}\right) \log \frac{P(Y | Z, \theta) P(Z | \theta)}{P\left(Z | Y, \theta^{(i)}\right)}-\log P\left(Y | \theta^{(i)}\right) \\ &=\sum_{Z} P\left(Z | Y, \theta^{(i)}\right) \log \frac{P(Y | Z, \theta) P(Z | \theta)}{P\left(Z | Y, \theta^{(i)}\right) P\left(Y | \theta^{(i)}\right)} \end{aligned}$ 令
$B(θ,θ(i))=^L(θ(i))+∑ZP(Z∣Y,θ(i))log⁡P(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i))P(Y∣θ(i)) B\left(\theta, \theta^{(i)}\right) \hat{=} L\left(\theta^{(i)}\right)+\sum_{Z} P\left(Z | Y, \theta^{(i)}\right) \log \frac{P(Y | Z, \theta) P(Z | \theta)}{P\left(Z | Y, \theta^{(i)}\right) P\left(Y | \theta^{(i)}\right)}$ 则
$L(\theta) \geqslant B\left(\theta, \theta^{(i)}\right)$ 即函数 $B(θ,θ(i))B\left(\theta, \theta^{(i)}\right)$ 是 $L(θ)L(\theta)$ 的一个下界，并且有：
$L\left(\theta^{(i)}\right)=B\left(\theta^{(i)}, \theta^{(i)}\right)$ 因此，任何可以使 $B(θ,θ(i))B\left(\theta, \theta^{(i)}\right)$ 增大的 $θ\theta$ 也可以使 $L(θ)L(\theta)$ 增大，因此，每次迭代时可以直接对 $B(θ,θ(i))B\left(\theta, \theta^{(i)}\right)$ 进行极大化更新 $θ\theta$ ：
$\theta^{(i+1)}=\arg \max _{\theta} B\left(\theta, \theta^{(i)}\right)$