1.1 简介
期望最大化(ExpectationMaximization)算法最初是由Ceppellini[2]等人1950年在讨论基因频率的估计的时候提出的。后来又被Hartley[3]和Baum[4]等人发展的更加广泛。目前引用的较多的是1977年Dempster[5]等人的工作。它主要用于从不完整的数据中计算最大似然估计。后来经过其他学者的发展,这个算法也被用于聚类等应用。
1.2 最大似然估计
重复强调下,EM算法主要用于从 不完整 的数据中计算最大似然估计,本身可以看成是特殊情况下计算极大似然的一种方法。
极大似然估计是要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模型在所有模型中产生已知数据的概率最大。(模型已定,参数未知)
我们通过一个抛硬币的实验和体会下算法的思想。
考虑一个投掷硬币的实验:现在我们有两枚硬币A 和