Maximum Likelihood from Incomplete Data via the EM Algorithm 阅读笔记

最新推荐文章于 2026-01-06 08:38:59 发布

原创最新推荐文章于 2026-01-06 08:38:59 发布 · 764 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

文献阅读专栏收录该内容

10 篇文章

订阅专栏

ACE-Step

音乐合成

ACE-Step

ACE-Step是由中国团队阶跃星辰（StepFun）与ACE Studio联手打造的开源音乐生成模型。它拥有3.5B参数量，支持快速高质量生成、强可控性和易于拓展的特点。最厉害的是，它可以生成多种语言的歌曲，包括但不限于中文、英文、日文等19种语言

阅读笔记：Maximum Likelihood from Incomplete Data via the EM Algorithm

作者：Arthur P. Dempster, Nan M. Laird, Donald B. Rubin (1977)
来源：Journal of the Royal Statistical Society

1. 论文核心贡献

本文提出了期望最大化算法（Expectation-Maximization, EM），用于在不完整数据（含缺失值或隐变量）的情况下进行最大似然估计（MLE）。EM算法通过迭代优化，逐步逼近真实参数，广泛应用于统计学、机器学习（如高斯混合模型、隐马尔可夫模型）等领域。

2. 问题背景

不完整数据：观测数据 $X$ 可能缺失部分信息（如某些变量未记录），或存在隐变量（Latent Variables） $Z$ 。
直接MLE困难：若直接对 $P(X∣θ)P(X|\theta)$ 进行最大化，可能因缺失数据导致计算复杂或无法求解。
EM思路：通过引入隐变量 $Z$ ，构造完整数据似然函数 $P(X,Z∣θ)P(X,Z|\theta)$ ，并迭代优化其期望。

3. EM算法框架

EM算法分为两步迭代：

(1) E-Step（期望步）

计算完整数据对数似然的期望（即Q函数）：
$Q(\theta|\theta^{(t)}) = \mathbb{E}_{Z|X,\theta^{(t)}} \left[ \log P(X,Z|\theta) \right]$
其中 $θ(t)\theta^{(t)}$ 是当前参数估计， $E\mathbb{E}$ 表示在隐变量 $Z$ 的后验分布 $P(Z∣X,θ(t))P(Z|X,\theta^{(t)})$ 下的期望。

(2) M-Step（最大化步）

最大化Q函数，更新参数：
$\theta^{(t+1)} = \arg\max_{\theta} Q(\theta|\theta^{(t)})$

4. 关键理论证明

4.1 单调性证明

EM算法的核心性质是每次迭代均不降低观测数据的对数似然，即：
$\log P(X|\theta^{(t+1)}) \geq \log P(X|\theta^{(t)})$

证明：

观测数据的对数似然可分解为：
$\log P(X|\theta) = \underbrace{Q(\theta|\theta^{(t)})}_{\text{Q函数}} - \underbrace{H(\theta|\theta^{(t)})}_{\text{熵项}}$
其中 $H(θ∣θ(t))=EZ∣X,θ(t)[log⁡P(Z∣X,θ)]H(\theta|\theta^{(t)}) = \mathbb{E}_{Z|X,\theta^{(t)}} \left[ \log P(Z|X,\theta) \right]$ 。
由Jensen不等式，熵项满足：
$H(\theta^{(t+1)}|\theta^{(t)}) \leq H(\theta^{(t)}|\theta^{(t)})$
因为M-Step最大化 $Q(θ∣θ(t))Q(\theta|\theta^{(t)})$ ，故 $Q(θ(t+1)∣θ(t))≥Q(θ(t)∣θ(t))Q(\theta^{(t+1)}|\theta^{(t)}) \geq Q(\theta^{(t)}|\theta^{(t)})$ 。
结合两部分可得：
$\log P(X|\theta^{(t+1)}) \geq \log P(X|\theta^{(t)})$

4.2 收敛性分析

局部收敛：若似然函数有上界，且Q函数在 $θ\theta$ 空间连续，则EM算法收敛到局部极大值。
全局收敛：依赖初始值选择，可通过多次随机初始化避免较差局部最优。

4.3 Q函数的构造

Q函数的定义基于完整数据似然的期望：
$Q(\theta|\theta^{(t)}) = \int_Z P(Z|X,\theta^{(t)}) \log P(X,Z|\theta) \, dZ$
其意义是在隐变量的当前后验分布下，对完整似然取期望，从而将缺失数据问题转化为可优化问题。

5. 应用示例

5.1 高斯混合模型（GMM）

E-Step：计算每个样本属于各高斯分量的后验概率（责任 $γik\gamma_{ik}$ ）：
$\gamma_{ik} = \frac{\pi_k \mathcal{N}(x_i|\mu_k,\Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(x_i|\mu_j,\Sigma_j)}$
M-Step：更新参数 $πk,μk,Σk\pi_k, \mu_k, \Sigma_k$ ：
$\mu_k = \frac{\sum_i \gamma_{ik} x_i}{\sum_i \gamma_{ik}}, \quad \Sigma_k = \frac{\sum_i \gamma_{ik} (x_i - \mu_k)(x_i - \mu_k)^T}{\sum_i \gamma_{ik}}$