EM算法-expectation-maximization

本文详细介绍了极大似然估计和EM算法的基本原理及应用。通过具体的例子,阐述了如何使用EM算法来解决带有隐藏变量的问题,例如在未知性别的情况下估计人群中男女性身高的分布。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

http://blog.youkuaiyun.com/zouxy09/article/details/8537620/

这里讲的很详细,包括两部分:极大似然估计和 引申出来的 EM,极大似然估计如下面步骤,EM更复杂一些,多个参数不知道时,先设定一些参数,算出其他参数,然后根据数据再调整迭代,如下面详细的EM思路

求最大似然函数估计值的一般步骤:

1)写出似然函数;

2)对似然函数取对数,并整理;

3)求导数,令导数为0,得到似然方程(多参数求偏导数);

4)解似然方程,得到的参数即为所求;


假设吸烟人群的肺癌的概率比不吸烟人群高5倍,这时有人肺癌病人,问你他是否吸烟,你回答什么正确的概率更大?你感觉答案可能是吸烟,这就是 EM 的思路,就是根据经验选择能让结果正确概率更大的那一个。


EM思路:

简版:猜(E-step),反思(M-step),重复;
啰嗦版:
你知道一些东西(观察的到的数据), 你不知道一些东西(观察不到的),你很好奇,想知道点那些不了解的东西。怎么办呢,你就根据一些假设(parameter)先猜(E-step),把那些不知道的东西都猜出来,假装你全都知道了; 然后有了这些猜出来的数据,你反思一下,更新一下你的假设(parameter), 让你观察到的数据更加可能(Maximize likelihood; M-stemp); 然后再猜,在反思,最后,你就得到了一个可以解释整个数据的假设了。

1. 注意,你猜的时候,要尽可能的猜遍所有情况,然后求期望(Expected);就是你不能仅仅猜一个个例,而是要猜出来整个宇宙;
2. 为什么要猜,因为反思的时候,知道全部的东西比较好。(就是P(X,Z)要比P(X)好优化一些。Z是hidden states)
3. 最后你得到什么了?你得到了一个可以解释数据的假设,可能有好多假设都能解释数据,可能别的假设更好。不过没关系,有总比没有强,知足吧。(你陷入到local minimum了)


借用之前看到的一个例子来讲一下EM算法吧。

现在一个班里有50个男生,50个女生,且男生站左,女生站右。我们假定男生的身高服从正态分布N(\mu_1,\sigma_1^2) ,女生的身高则服从另一个正态分布:N(\mu_2,\sigma_2^2) 。这时候我们可以用极大似然法(MLE),分别通过这50个男生和50个女生的样本来估计这两个正态分布的参数。

但现在我们让情况复杂一点,就是这50个男生和50个女生混在一起了。我们拥有100个人的身高数据,却不知道这100个人每一个是男生还是女生。

这时候情况就有点尴尬,因为通常来说,我们只有知道了精确的男女身高的正态分布参数我们才能知道每一个人更有可能是男生还是女生。但从另一方面去考量,我们只有知道了每个人是男生还是女生才能尽可能准确地估计男女各自身高的正态分布的参数。

这个时候有人就想到我们必须从某一点开始,并用迭代的办法去解决这个问题:我们先设定男生身高和女生身高分布的几个参数(初始值),然后根据这些参数去判断每一个样本(人)是男生还是女生,之后根据标注后的样本再反过来重新估计参数。之后再多次重复这个过程,直至稳定。这个算法也就是EM算法。







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值