EM算法的推导

本文深入解析了EM算法在解决带有隐变量的概率模型中的应用,通过实例详细介绍了EM算法的工作原理,包括如何通过期望最大化过程求解参数的最优估计。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概括

EM算法是用来求解极大似然函数的一种数学方法,在机器学习中的很多地方都可以见到他的影子,如GMM,HMM,LDA,PLSA(目前本人只是接触过这几个)等等。


先从最经典的GMM算法说起
加入现在给你一堆数据分别为h1,h2,h3…代表n名学生的身高,我们又知道学生的身高服从参数为(μ1,σ1)的高斯分布,那么我们很自然的想到用极大似然估计的想法求出两个参数。但是如果现在h1,h2,h3…n名同学的身高给出后,我们并不知道他们是男是女,男生身高服从参数为(μ1,σ1)的高斯分布,女生身高服从参数为(μ2,σ2)的高斯分布,我们又该如何去计算呢?仍然用极大似然估计的方法如下:
max∑i=1100logP{hi∣μ1,σ1,μ2,σ2}max\sum_{i=1}^{100}logP\{hi|\mu1,\sigma1,\mu2,\sigma2\}maxi=1100logP{hiμ1,σ1,μ2,σ2}
但是我们并不知道每个人是属于男生还是女生,设Z为性别变量,有
(1)max∑i=1100log∑z=12P{hi,z∣μ1,σ1,μ2,σ2}max\sum_{i=1}^{100}log\sum_{z=1}^{2}P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}\tag{1}maxi=1100logz=12P{hi,zμ1,σ1,μ2,σ2}(1)
正常求导去做,但是我们发现对数当中求导数很不好做所以,就有了EM算法,再看EM算法之前我们先来了解已下Jeson不等式
f(x)f(x)f(x)是函数,那么有

f(E(X))≥qE(f(X))f(E(X))\geq qE(f(X))f(E(X))qE(f(X))
ps:其实是根据凸函数不等式得来的

先对公式(1)做一个简单的变形上面的公式
(2)max∑i=1100log∑z=12Q(z)P{hi,z∣μ1,σ1,μ2,σ2}Q(z)max\sum_{i=1}^{100}log\sum_{z=1}^{2}\frac{Q(z)P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)} \tag{2} maxi=1100logz=12Q(z)Q(z)P{hi,zμ1,σ1,μ2,σ2}(2)
其中Q(z)是z的一个分布,所以log里面是一个求P{hi,z∣μ1,σ1,μ2,σ2}Q(z)\frac{P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)}Q(z)P{hi,zμ1,σ1,μ2,σ2}关于Q(z)Q(z)Q(z)的均值
log是凸函书,根据
jeson不等式
公式2(先去点max)为
∑i=1100log∑z=12Q(z)P{hi,z∣μ1,σ1,μ2,σ2}Q(z)≥∑i=1100∑z=12Q(z)logP{hi,z∣μ1,σ1,μ2,σ2}Q(z)\sum_{i=1}^{100}log\sum_{z=1}^{2}\frac{Q(z)P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)} \geq \sum_{i=1}^{100}\sum_{z=1}^{2}Q(z)log\frac{P\{hi,z|\mu1,\sigma1,\mu2,\sigma2\}}{Q(z)}i=1100logz=12Q(z)Q(z)P{hi,zμ1,σ1,μ2,σ2}i=1100z=12Q(z)logQ(z)P{hi,zμ1,σ1,μ2,σ2}
这样一来等号就全部都移到左边去了,log中就没有连加项了。
我们现在来对问题一般化
设要求的问题为
∑YlogP{Y;θ}=∑Ylog∑zP{Y,Z;θ}=∑Ylog∑zQ(z)P{Y,Z;θ}Q(z)\sum_{Y}logP\{Y;\theta\}=\sum_{Y}log\sum_{z}P\{Y,Z;\theta\}=\sum_{Y}log\sum_{z}Q(z)\frac{P\{Y,Z;\theta\}}{Q(z)}YlogP{Y;θ}=YlogzP{Y,Z;θ}=YlogzQ(z)Q(z)P{Y,Z;θ}
Q(z)Q(z)Q(z)是z的分布
∑Ylog∑zQ(z)P{Y,Z;θ}Q(z)≥∑Y∑zQ(z)logp(Y,Z;θ)Q(z)\sum_{Y}log\sum_{z}Q(z)\frac{P\{Y,Z;\theta\}}{Q(z)} \geq \sum_Y\sum_zQ(z)log\frac{p(Y,Z;\theta)}{Q(z)}YlogzQ(z)Q(z)P{Y,Z;θ}YzQ(z)logQ(z)p(Y,Z;θ)
Q(z)=p(z∣x;θ)Q(z)=p(z|x;\theta)Q(z)=p(zx;θ)的时候等号成立(也是根据凸函数的性质得出的,此处不再证明)
在这里插入图片描述
图像的几何意义如上图所示,这里Y为X。原式≥\geq号恒成立。而由条件Q(z)=p(z∣x;θ)Q(z)=p(z|x;\theta)Q(z)=p(zx;θ)可以知道,只有此条件成立的时候才能取等号,我们现在这样考虑这个问题。无论θ\thetaθ取什么值,只要Q(z)满足上面的条件等式就能成立,那么我们随便取一个θ\thetaθ,令θ=θ1\theta=\theta_1θ=θ1,然后根据Q(z)=p(z∣x;θ)Q(z)=p(z|x;\theta)Q(z)=p(zx;θ)得出Q(z),记作Q(z1)=p(z∣x;θ1)Q(z1)=p(z|x;\theta_1)Q(z1)=p(zx;θ1),现在只将Q(z1)Q(z1)Q(z1)带入不等式中,注意只将Q(z1)Q(z1)Q(z1)带入,θ\thetaθ依然是个参数,注意到无论θ\thetaθQ(z)Q(z)Q(z)取什么值,不等式恒成立。只有θ1\theta_1θ1Q(z1)Q(z1)Q(z1)同时带入进去,等式才能成立,但是现在我们只是带入了θ1\theta_1θ1所以不等式是严格的大于,此时就和上图完整的对照起来了,当这时候的θ1\theta_1θ1就是上图的θold\theta_{old}θold,因为现在Q(z)是已知的,所以只有θ\thetaθ是未知的,可以对θ\thetaθ求导,求完之后再带回到原来的公式中,就可以得到更优的结果。然后再用心的θnew\theta_{new}θnew求出Q(z)=p(z∣x;θnew)Q(z)=p(z|x;\theta_{new})Q(z)=p(zx;θnew)中的Q(z)Q(z)Q(z)之后继续上面的步骤,当然一开始的时候要初始化一个θ=θ0\theta= \theta_0θ=θ0才能开始迭代过程。

最后EM能得到什么呢,能得到P(Z∣Y,θ)P(Z|Y,\theta)P(ZY,θ)的分布,还有参数θ\thetaθ的最优结果。EM算法中将Z成为隐变量,也就是问题中不能直接观测到的变量。

内容概要:该研究通过在黑龙江省某示范村进行24小时实地测试,比较了燃煤炉具与自动/手动进料生物质炉具的污染物排放特征。结果显示,生物质炉具相比燃煤炉具显著降低了PM2.5、CO和SO2的排放(自动进料分别降低41.2%、54.3%、40.0%;手动进料降低35.3%、22.1%、20.0%),但NOx排放未降低甚至有所增加。研究还发现,经济性和便利性是影响生物质炉具推广的重要因素。该研究不仅提供了实际排放数据支持,还通过Python代码详细复现了排放特征比较、减排效果计算和结果可视化,进一步探讨了燃料性质、动态排放特征、碳平衡计算以及政策建议。 适合人群:从事环境科学研究的学者、政府环保部门工作人员、能源政策制定者、关注农村能源转型的社会人士。 使用场景及目标:①评估生物质炉具在农村地区的推广潜力;②为政策制定者提供科学依据,优化补贴政策;③帮助研究人员深入了解生物质炉具的排放特征和技术改进方向;④为企业研发更高效的生物质炉具提供参考。 其他说明:该研究通过大量数据分析和模拟,揭示了生物质炉具在实际应用中的优点和挑战,特别是NOx排放增加的问题。研究还提出了多项具体的技术改进方向和政策建议,如优化进料方式、提高热效率、建设本地颗粒厂等,为生物质炉具的广泛推广提供了可行路径。此外,研究还开发了一个智能政策建议生成系统,可以根据不同地区的特征定制化生成政策建议,为农村能源转型提供了有力支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值