EM算法（Expectation-Maximization，期望最大化）

原创

已于 2025-04-25 01:34:40 修改 · 367 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #人工智能 #EM算法

于 2025-04-25 01:34:00 首次发布

1. 背景与动机

在机器学习和统计建模中，我们常遇到以下情况：

数据中存在缺失值。
模型中包含隐变量，这些变量无法直接观测，但对模型至关重要（例如，混合模型中的类别标签）。
我们希望通过最大化数据的似然函数来估计模型参数，但直接求解较为困难。

例如，在高斯混合模型（GMM）中，我们观测到一组数据点，但不知道每个点属于哪个高斯分布（隐变量）。直接最大化似然函数会涉及复杂的非线性优化问题，难以求解。

EM算法的动机：通过迭代的方式，将复杂的似然优化问题分解为两个更简单的步骤（E步和M步），逐步逼近最优参数。EM算法特别适合处理概率模型，如混合模型、隐马尔可夫模型（HMM）等。

2. 数学基础

为了理解EM算法，我们需要掌握以下概念：

2.1 概率模型与隐变量

假设我们有一个数据集 $x1,x2,…,xN}\mathbf{X} = \{x_1, x_2, \dots, x_N\}$ ，这些数据由概率模型 $p(x∣θ)p(x|\theta)$ 生成，其中 $θ\theta$ 是模型参数。我们希望通过最大化对数似然函数来估计 $θ\theta$ ：

$L(θ)=log⁡p(X∣θ)=∑i=1Nlog⁡p(xi∣θ)L(\theta) = \log p(\mathbf{X}|\theta) = \sum_{i=1}^N \log p(x_i|\theta)$

但在许多情况下，数据生成过程还涉及隐变量 $z1,z2,…,zN}\mathbf{Z} = \{z_1, z_2, \dots, z_N\}$ ，这些隐变量不可观测。完整的概率模型为：

$z|\theta) = p(x|z, \theta) p(z|\theta)$

其中：

$\theta)$ 是观测数据的条件分布。
$p(z∣θ)p(z|\theta)$ 是隐变量的先验分布。

此时，观测数据的边际似然为：

$p(x∣θ)=∑zp(x,z∣θ)p(x|\theta) = \sum_z p(x, z|\theta)$ 或 $p(x∣θ)=∫p(x,z∣θ)dzp(x|\theta) = \int p(x, z|\theta) dz$ （若 $z$ 连续）

直接最大化 $log⁡p(X∣θ)=∑ilog⁡∑zip(xi,zi∣θ)\log p(\mathbf{X}|\theta) = \sum_i \log \sum_{z_i} p(x_i, z_i|\theta)$ 通常很困难，因为对数函数内部的求和（或积分）使得优化问题变得非凸且复杂。

2.2 似然函数与最大化

我们的目标是通过优化以下对数似然函数来找到最优参数 $θ\theta$ ：

$θ∗=arg⁡max⁡θ∑i=1Nlog⁡(∑zip(xi,zi∣θ))\theta^* = \arg\max_\theta \sum_{i=1}^N \log \left( \sum_{z_i} p(x_i, z_i|\theta) \right)$

但由于对数内部的求和，梯度计算非常复杂。EM算法通过引入辅助分布和迭代优化来简化这个问题。

3. EM算法的核心思想

EM算法的核心是通过迭代的方式，逐步提高对数似然函数 $L(θ)L(\theta)$ 。它将问题分解为两个步骤：

E步（期望）：
- 假设当前参数为 $θ(t)\theta^{(t)}$ ，计算隐变量 $z$ 的后验分布 $\theta^{(t)})$ 。
- 基于此后验分布，构造一个下界（即期望对数似然），用来近似真正的对数似然函数。
M步（最大化）：
- 通过最大化E步构造的下界，更新参数 $θ\theta$ 到 $θ(t+1)\theta^{(t+1)}$ 。
- 这个新参数会使得似然函数至少不低于上一步。

通过反复执行E步和M步，EM算法逐步逼近对数似然函数的局部最大值。

4. 算法推导

为了深入理解EM算法，我们从数学角度推导其原理。

4.1 对数似然的下界

对任意一个观测数据点 $x_i$ ，其边际对数似然为：

$log⁡p(xi∣θ)=log⁡∑zip(xi,zi∣θ)\log p(x_i|\theta) = \log \sum_{z_i} p(x_i, z_i|\theta)$

我们引入一个辅助分布 $q(z_i)$ ，表示隐变量 $z_i$ 的分布。利用Jensen不等式（对数函数是凹函数），可以得到：

$log⁡p(xi∣θ)=log⁡∑zip(xi,zi∣θ)=log⁡∑ziq(zi)p(xi,zi∣θ)q(zi)\log p(x_i|\theta) = \log \sum_{z_i} p(x_i, z_i|\theta) = \log \sum_{z_i} q(z_i) \frac{p(x_i, z_i|\theta)}{q(z_i)}$