em 流程示例解释

通过一个具体案例,介绍如何使用EM算法来估计未知参数的概率。在硬币抛掷实验中,即使缺少完整数据集,也能逐步逼近真实概率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

1 极大似然估计:

已知两枚硬币, 每次等概率随机选择其中1枚掷10次, 正面记为H, 反面为T;

其中A被选中3次, B被选中2次; 每次的正反次数见图上半部分。

则可以估计A掷出正面的概率就是 total(A.H)/total(A) = 24/30=0.8,    同理可得B正面的概率是 0.45

 

问题很简单, 解答也很直观。

 

问题改变如下:

2 A,B总共掷了5次, 但不知道A被选中几次、哪次是A掷出来的,更不知道A掷出正面的概率; 也不知道B的这些信息。 如何求出A、B掷出正面的概率?

解答过程:

A、B掷出正面是相互独立的

1) 初始随机选择值: A.h=0.6, B.h=0.5

2) 对每次掷硬币过程(每个观测样本), 根据掷硬币结果计算此轮选中的硬币是A、B的概率。 以第一轮5正5反为例:

Sa/Sb = C(10, 5) * 0.6^5 * 0.4^5 / [C(10, 5) * 0.5^5 * 0.5^5]; 且Sa + Sb = 1。

所以Sa = 0.45, Sb = 0.55;  A掷出正面为5 * 0.45 = 2.2 次, 反面为5 * 0.45 = 2.2次。

 

同理对另外4次掷硬币过程, 也可得到选中A、B的概率以及A、B的正反面次数。

 

3) 重新估计A.h, B.h。 如何重新估计? 根据步骤2的结果中, A.h = total(A.H)/total(A) = 21.3/29.9 = 0.71, B.h = 0.58;

使用该值,从步骤2重新循环计算, 迭代。 直到两次迭代得到的A.h之差在阀值限制之内, 两次迭代得到的B.h之差在阀值之内

 

4) 迭代结束时得到A.h=0.8, B.h=0.52; 十分接近理想值【理想值无法得到】

over。

 

 

此示例中, 5次掷币过程称作Incomplete data(因为不知道每次掷币过程选择的到底是A还是B), 每次到底选择的是A还是B称作z,隐藏变量、潜在变量

 

杯具,业余选手, 各EM论文中对这些的描述都不一致, 让人头晕脑胀, 迷糊好几天

 

但是, 但是, 从此过程中没有看出E、M过程啊

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值