EM算法(Expectation Maximization Algorithm)

最新推荐文章于 2025-08-13 19:16:32 发布

转载最新推荐文章于 2025-08-13 19:16:32 发布 · 92 阅读

文章标签：

#人工智能

本文通过一个三硬币模型的例子，详细介绍了EM算法的基本原理及其在解决带有隐藏变量的问题中的应用。通过对EM算法的推导和收敛性的证明，展示了如何通过迭代的方式求解最大似然估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

EM算法(Expectation Maximization Algorithm)

1. 前言

这是本人写的第一篇博客(2013年4月5日发在cnblogs上,现在迁移过来)，是学习李航老师的《统计学习方法》书以及斯坦福机器学习课Andrew Ng的EM算法课后，对EM算法学习的介绍性笔记，如有写得不恰当或错误的地方，请指出，并多多包涵，谢谢。另外本人数学功底不是很好，有些数学公式我会说明的仔细点的，如果数学基础好，可直接略过。

2.基础数学知识

在正式介绍EM算法之前，先介绍推导EM算法用到的数学基础知识，包括凸函数，Jensen不等式。

2.1.凸函数

对于凸函数，凹函数，如果大家学过高等数学，都应该知道，需要注意的是国内教材如同济大学的《高等数学》的这两个概念跟国外刚好相反，为了能更好的区别，本文章把凹凸函数称之为上凸函数，下凸函数，具体定义如下：

上凸函数：函数

更直观的可以看图2.1和2.2：


图2.1. 上凸函数	图2.2. 下凸函数

可以清楚地看到图2.1上凸函数中，

2.2.Jensen不等式

有了上述凸函数的定义后，我们就能很清楚的Jensen不等式的含义，它的定义如下：

如果f是上凸函数，

那么很明显

3.EM算法所解决问题的例子

在推导EM算法之前，先引用《统计学习方法》中EM算法的例子：

例1. (三硬币模型)假设有3枚硬币,分别记作

解：设随机变量
$P (y | θ) = π p y (1 - p) 1 - y + (1 - π) q y (1 - q) 1 - y$ 有 $P (Y | θ) = \prod n j = 1 [π p y j (1 - p) 1 - y j + (1 - π) q$ $θ ˆ = arg max θ log P (Y | θ) = arg max θ \sum j$ $l (θ) = \sum j = 1 10 l o g$ $\sum i = 1 2 P (y j, z i ∣ θ) = P (y j ∣ θ) = π p y$ $Q (z i) = P (y j, z i ∣ θ) / \sum i P (y j, z i ∣$ $Q j (z 1) = π p y j ( 1 - p ) 1 - y j π p y$

两组值的最后结果不相同，这说明EM算法对初始值敏感，选择不同的初值可能会有不同的结果，只能保证参数估计收敛到稳定点。因此实际应用中常用的办法就是选取多组初始值进行迭代计算，然后取结果最好的值。

在进行下部分内容之前，还需说明下一个东西。在上面的举例说明后，其实可以发现上述的解决方法跟一个简单的聚类方法很像，没错，它就是K-means聚类。K-means算法先假定k个中心，然后进行最短距离聚类，之后根据聚类结果重新计算各个聚类的中心点，一次迭代，是不是很像，而且K-means也是初始值敏感，因此其实K-means算法也包含了EM算法思想，只是这边EM算法中用P概率计算，而K-means直接用最短距离计算。所以EM算法可以用于无监督学习。在下一篇文章，我准备写下典型的用EM算法的例子，高斯混合模型(GMM,Gaussian Mixture Model)。