EM算法的推导

最新推荐文章于 2023-11-23 09:01:09 发布

原创最新推荐文章于 2023-11-23 09:01:09 发布 · 144 阅读

1 ·

CC 4.0 BY-SA版权

算法同时被 2 个专栏收录

5 篇文章

订阅专栏

概率

2 篇文章

订阅专栏

本文深入解析了EM算法在解决带有隐变量的概率模型中的应用，通过实例详细介绍了EM算法的工作原理，包括如何通过期望最大化过程求解参数的最优估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概括

EM算法是用来求解极大似然函数的一种数学方法，在机器学习中的很多地方都可以见到他的影子，如GMM，HMM，LDA，PLSA(目前本人只是接触过这几个)等等。

先从最经典的GMM算法说起
加入现在给你一堆数据分别为h1,h2,h3…代表n名学生的身高，我们又知道学生的身高服从参数为(μ1,σ1)的高斯分布，那么我们很自然的想到用极大似然估计的想法求出两个参数。但是如果现在h1,h2,h3…n名同学的身高给出后，我们并不知道他们是男是女，男生身高服从参数为(μ1,σ1)的高斯分布，女生身高服从参数为(μ2,σ2)的高斯分布，我们又该如何去计算呢？仍然用极大似然估计的方法如下：
$max∑i=1100logP{hi∣μ1,σ1,μ2,σ2}max\sum_{i=1}^{100}logP\{hi|\mu1,\sigma1,\mu2,\sigma2\}$
但是我们并不知道每个人是属于男生还是女生，设Z为性别变量，有
$(1)max∑i=1100log∑z=12P{hi,z∣μ1,σ1,μ2,σ2}max\sum_{i=1}^{100}log\sum_{z=1}^{2}P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}\tag{1}$
正常求导去做，但是我们发现对数当中求导数很不好做所以，就有了EM算法，再看EM算法之前我们先来了解已下Jeson不等式
若 $f (x)$ 是函数，那么有

$f(E(X))≥qE(f(X))f(E(X))\geq qE(f(X))$
ps:其实是根据凸函数不等式得来的

先对公式(1)做一个简单的变形上面的公式
$(2)max∑i=1100log∑z=12Q(z)P{hi,z∣μ1,σ1,μ2,σ2}Q(z)max\sum_{i=1}^{100}log\sum_{z=1}^{2}\frac{Q(z)P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)} \tag{2}$
其中Q(z)是z的一个分布，所以log里面是一个求 $P{hi,z∣μ1,σ1,μ2,σ2}Q(z)\frac{P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)}$ 关于 $Q (z)$ 的均值
log是凸函书，根据jeson不等式公式2(先去点max)为
$∑i=1100log∑z=12Q(z)P{hi,z∣μ1,σ1,μ2,σ2}Q(z)≥∑i=1100∑z=12Q(z)logP{hi,z∣μ1,σ1,μ2,σ2}Q(z)\sum_{i=1}^{100}log\sum_{z=1}^{2}\frac{Q(z)P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)} \geq \sum_{i=1}^{100}\sum_{z=1}^{2}Q(z)log\frac{P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)}$
这样一来等号就全部都移到左边去了，log中就没有连加项了。
我们现在来对问题一般化
设要求的问题为
$∑YlogP{Y;θ}=∑Ylog∑zP{Y,Z;θ}=∑Ylog∑zQ(z)P{Y,Z;θ}Q(z)\sum_{Y}logP\{Y;\theta\}=\sum_{Y}log\sum_{z}P\{Y,Z;\theta\}=\sum_{Y}log\sum_{z}Q(z)\frac{P\{Y,Z;\theta\}}{Q(z)}$
其 $Q (z)$ 是z的分布
$∑Ylog∑zQ(z)P{Y,Z;θ}Q(z)≥∑Y∑zQ(z)logp(Y,Z;θ)Q(z)\sum_{Y}log\sum_{z}Q(z)\frac{P\{Y,Z;\theta\}}{Q(z)} \geq \sum_Y\sum_zQ(z)log\frac{p(Y,Z;\theta)}{Q(z)}$
当 $Q(z)=p(z∣x;θ)Q(z)=p(z|x;\theta)$ 的时候等号成立（也是根据凸函数的性质得出的，此处不再证明）
在这里插入图片描述
图像的几何意义如上图所示，这里Y为X。原式 $≥\geq$ 号恒成立。而由条件 $Q(z)=p(z∣x;θ)Q(z)=p(z|x;\theta)$ 可以知道，只有此条件成立的时候才能取等号，我们现在这样考虑这个问题。无论 $θ\theta$ 取什么值，只要Q(z)满足上面的条件等式就能成立，那么我们随便取一个 $θ\theta$ ，令 $θ=θ1\theta=\theta_1$ ，然后根据 $Q(z)=p(z∣x;θ)Q(z)=p(z|x;\theta)$ 得出Q(z)，记作 $Q(z1)=p(z∣x;θ1)Q(z1)=p(z|x;\theta_1)$ ，现在只将 $Q (z 1)$ 带入不等式中，注意只将 $Q (z 1)$ 带入， $θ\theta$ 依然是个参数，注意到无论 $θ\theta$ 和 $Q (z)$ 取什么值，不等式恒成立。只有 $θ1\theta_1$ 和 $Q (z 1)$ 同时带入进去，等式才能成立，但是现在我们只是带入了 $θ1\theta_1$ 所以不等式是严格的大于，此时就和上图完整的对照起来了，当这时候的 $θ1\theta_1$ 就是上图的 $θold\theta_{old}$ ，因为现在Q(z)是已知的，所以只有 $θ\theta$ 是未知的，可以对 $θ\theta$ 求导，求完之后再带回到原来的公式中，就可以得到更优的结果。然后再用心的 $θnew\theta_{new}$ 求出 $Q(z)=p(z∣x;θnew)Q(z)=p(z|x;\theta_{new})$ 中的 $Q (z)$ 之后继续上面的步骤，当然一开始的时候要初始化一个 $θ=θ0\theta= \theta_0$ 才能开始迭代过程。