EM算法收敛性推导

最新推荐文章于 2023-08-02 12:42:59 发布

原创最新推荐文章于 2023-08-02 12:42:59 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

算法同时被 2 个专栏收录

475 篇文章

订阅专栏

机器学习

74 篇文章

订阅专栏

本文深入解析了EM算法（Expectation-Maximization），一种用于求解含有隐变量的最大似然估计问题的迭代算法。通过数学推导，详细介绍了EM算法的E步和M步，以及算法的收敛原理。

EM算法（Expectation-Maximization）,就是用最大似然MLE来递推求模型的参数。顾明思议分为两步：第一步求隐变量的期望，第二步找到让隐变量期望最大化的参数。用公式来表示最终的目标就是：
$max⁡θL(θ)L(\theta)=\sum_{i}log(p(x_i;\theta)) \\ \theta = \argmax_{\theta}L(\theta)$
而模型中有未知的隐变量z，那么
$L(θ)=∑ilog∑z(p(xi,z;θ))L(\theta)=\sum_{i}log\sum_z(p(x_i,z;\theta))$
里面的求和实际上是希望求z得期望，假设z服从某种分布，它的概率是 $Q_i(z)$ ，它的取值分布是 $g (z)$ ，那么 $L(θ)L(\theta)$ 可以进一步变成：
$L(\theta)=\sum_{i}logE(z) \\ L(\theta)=\sum_{i}log\sum_zQ_i(z)g(z) \\ L(\theta)=\sum_{i}log\sum_zQ_i(z)\frac{p(x_i,z;\theta)}{Q_i(z)}$
利用Jesson不等式，凸函数 $f (E (z)) > = E (f (z))$ ，相等的情况是 $E (z) = z$ ，当 $E (z)$ 是常数的时候。那么可以成功把log放进求和里面
$L(\theta)>=\sum_{i}\sum_zQ_i(z)log\frac{p(x_i,z;\theta)}{Q_i(z)}=J(z,\theta)$
所以，整个极大似然的概率 $L(θ)L(\theta)$ 有下界 $J(z,θ)J(z,\theta)$ ，我们每次优化可以提供下界 $J(z,θ)J(z,\theta)$ ，来不断提高 $L(θ)L(\theta)$ ，也就是说 $L(θ)L(\theta)$ 是不断递增的，同时 $L(θ)L(\theta)$ 不超过1，这就是算法能收敛的原因。
还剩下一个问题 $Q_i(z)$ 应该如何选择，如果Jesson不等式相等的条件就是
$p(xi,z;θ)Qi(z)=c\frac{p(x_i,z;\theta)}{Q_i(z)}=c$
同时 $∑zQi(z)=1\sum_{z}Q_i(z)=1$ ，c是一个常数，也就是说 $∑zp(xi,z;θ)\sum_z p(x_i,z;\theta)$ 是和z无关的，写成公式就是
$\sum_z p(x_i,z;\theta)=p(x_i;\theta)$
那么
$Q_i(z)=\frac{p(x_i,z;\theta)}{\sum_zp(x_i,z;\theta)} \\ Q_i(z)=\frac{p(x_i,z;\theta)}{p(x_i;\theta)} \\ Q_i(z)=p(z|x_i;\theta)$
这也解决了 $Q_i(z)$ 如何选择的问题，刚好的已知参数和数据情况下的后验概率。
所以，EM算法用公式表达就是：

E步：算隐含变量的期望，隐含变量的概率分布是 $Qi(z)=p(z∣xi;θ)Q_i(z)=p(z|x_i;\theta)$
而期望的下界是
$J(z,\theta)=\sum_{i}\sum_zQ_i(z)log\frac{p(x_i,z;\theta)}{Q_i(z)}$
M步：找到隐含变量期望最大化的 $θ\theta$ 进行下一轮迭代，期望下界最大化就是期望最大化
$\theta = \argmax_{\theta}J(z,\theta)$