F函数的极大极大算法

本文介绍了F函数在理解EM算法中的作用,F函数将最大似然估计和EM算法结合,通过固定一个变量求解另一个的极大值。在EM算法中,F函数的两个极大化步骤分别对应E步和M步,最终帮助我们找到模型参数θ的局部最优解。文章详细阐述了F函数的数学表达式和其与EM算法的关系,强调了F函数在处理观测数据和隐变量时的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

F函数中的F应该是(free energy)的缩写,这个函数可以帮我们换一个思路理解EM算法:
EM算法中总有一个Q函数,在证明过程中有一些地方不是很形象,如果用F函数极大极大算法可以比较好的理解。本文所用的变量名称与李航第九章相同,即,隐变量数据:Z;观测变量数据:Y(永远是已知的);需要估计的模型参数 θ \theta θ,概率分布一律用P(·)表示。

1、最大似然估计法

大致的意思是说,我们现在想知道一个分布,通过在这个陌生的分布里采样的方法来确定这个分布。我们大致想用一些模型来近似这个陌生的分布,我们当然可以很武断的认为这个陌生的分布就是一个确定的分布,比如说是一个的高斯分布,这时候我们需要确定的参数只有 μ \mu μ σ \sigma σ假设我们用 θ \theta θ来代表这两个参数。我们从分布中采样,采样的观测数据不妨设为Y,这时候我们如何确定参数 θ \theta θ呢? θ = arg ⁡ max ⁡ θ   P ( Y ∣ θ ) \theta=\mathop{\arg\max}_{\theta} \ \mathrm{P} (Y|\theta) θ=argmaxθ P(Yθ)或者是 θ = arg ⁡ max ⁡ θ   l o g ( P ( Y ∣ θ ) ) \theta=\mathop{\arg\max}_{\theta} \ log\left(\mathrm{P} (Y|\theta)\right) θ=argmaxθ log(P(Yθ))也就是我们最大化 P ( Y ∣ θ ) P(Y|\theta) P(Yθ)是通过找到这样的参数,使得在由这个参数所确定的分布中,最大可能采样到我们采样出来的结果Y。不难看出,无论怎样只要我们认定了一种高斯分布,无论输入什么样的数据总能得到一组结果,这是好事。但是我们一旦认定了我们希望求出的分布是由一种高斯分布决定的,那么我们所有的运算过程算的再好所能表达的也只有由一个高斯分布所能表达,真实的分布可能千奇百怪,但我们一旦选定这种表达框架,我们得出的结果永远都是高斯分布那种“钟型”的样子,以上是所谓最大似然估计法。

2、EM算法

现在的问题是,如果真实的分布比较复杂,不是一个高斯分布可以描述的了,真实的分布是有90%概率是高斯分布1,有10%概率是高斯分布2,我们可能需要一些隐变量Z来描述关于逼近的关系,【之所以用隐变量,也是希望我们所设定的表达框架表达能力更强一些,比如上面这个例子,隐变量的值就是(10%和90%)】。那么这样我们就需要用到EM算法。无论是最大似然估计还是EM算法,我们都是用这个式子来确定我们想要得到的参数的 θ = arg ⁡ max ⁡ θ L ( θ ) = arg ⁡ max ⁡ θ   l o g ( P ( Y ∣ θ ) ) \theta=\mathop{\arg\max}_{\theta} L(\theta)=\mathop{\arg\max}_{\theta}\ log\left(\mathrm{P} (Y|\theta)\right) θ=argmaxθ

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值