一、期望最大化概述
期望最大化的受欢迎程度在很大程度上是因为它是从观察中学习参数的有效且稳健的程序。然而,通常可用于训练概率模型的唯一数据是不完整的。例如,在医学诊断中可能会出现缺失值,其中患者病史通常包括有限的一组测试的结果。或者,在基因表达聚类中,数据不完整源于在概率模型中有意省略基因到簇的分配。期望最大化算法能够在数据不完整的概率模型中进行参数估计。
1、算法流程
期望最大化算法(Expectation Maximization),是一种渐进逼近算法,通过迭代进行极大似然估计(Maximum Likelihood Estimation, MLE)的优化算法;
给定一组不完整的数据,考虑一组起始参数,定义一个最优化函数后,分为两步:
根据参数调整模型(E步),使用观察到的数据集可用数据,估计(猜测)缺失数据的值;
根据模型调整参数(M步),使用期望(E)步骤后生成的完整数据以更新参数;
E步和M步交替进行,直至最优(局部、收敛)。