阅读笔记:Maximum Likelihood from Incomplete Data via the EM Algorithm
作者:Arthur P. Dempster, Nan M. Laird, Donald B. Rubin (1977)
来源:Journal of the Royal Statistical Society
1. 论文核心贡献
本文提出了期望最大化算法(Expectation-Maximization, EM),用于在不完整数据(含缺失值或隐变量)的情况下进行最大似然估计(MLE)。EM算法通过迭代优化,逐步逼近真实参数,广泛应用于统计学、机器学习(如高斯混合模型、隐马尔可夫模型)等领域。
2. 问题背景
- 不完整数据:观测数据XXX可能缺失部分信息(如某些变量未记录),或存在隐变量(Latent Variables)ZZZ。
- 直接MLE困难:若直接对P(X∣θ)P(X|\theta)P(X∣θ)进行最大化,可能因缺失数据导致计算复杂或无法求解。
- EM思路:通过引入隐变量ZZZ,构造完整数据似然函数P(X,Z∣θ)P(X,Z|\theta)P(X,Z∣θ),并迭代优化其期望。
3. EM算法框架
EM算法分为两步迭代:
(1) E-Step(期望步)
计算完整数据对数似然的期望(即Q函数):
Q(θ∣θ(t))=EZ∣X,θ(t)[logP(X,Z∣θ)]
Q(\theta|\theta^{(t)}) = \mathbb{E}_{Z|X,\theta^{(t)}} \left[ \log P(X,Z|\theta) \right]
Q(θ∣θ(t))=EZ∣X,θ(t)[logP(X,Z∣θ)]
其中θ(t)\theta^{(t)}θ(t)是当前参数估计,E\mathbb{E}E表示在隐变量ZZZ的后验分布P(Z∣X,θ(t))P(Z|X,\theta^{(t)})P(Z∣X,θ(t))下的期望。
(2) M-Step(最大化步)
最大化Q函数,更新参数:
θ(t+1)=argmaxθQ(θ∣θ(t))
\theta^{(t+1)} = \arg\max_{\theta} Q(\theta|\theta^{(t)})
θ(t+1)=argθmaxQ(θ∣θ(t))
4. 关键理论证明
4.1 单调性证明
EM算法的核心性质是每次迭代均不降低观测数据的对数似然,即:
logP(X∣θ(t+1))≥logP(X∣θ(t))
\log P(X|\theta^{(t+1)}) \geq \log P(X|\theta^{(t)})
logP(X∣θ(t+1))≥logP(X∣θ(t))
证明:
-
观测数据的对数似然可分解为:
logP(X∣θ)=Q(θ∣θ(t))⏟Q函数−H(θ∣θ(t))⏟熵项 \log P(X|\theta) = \underbrace{Q(\theta|\theta^{(t)})}_{\text{Q函数}} - \underbrace{H(\theta|\theta^{(t)})}_{\text{熵项}} logP(X∣θ)=Q函数Q(θ∣θ(t))−熵项H(θ∣θ(t))
其中H(θ∣θ(t))=EZ∣X,θ(t)[logP(Z∣X,θ)]H(\theta|\theta^{(t)}) = \mathbb{E}_{Z|X,\theta^{(t)}} \left[ \log P(Z|X,\theta) \right]H(θ∣θ(t))=EZ∣X,θ(t)[logP(Z∣X,θ)]。 -
由Jensen不等式,熵项满足:
H(θ(t+1)∣θ(t))≤H(θ(t)∣θ(t)) H(\theta^{(t+1)}|\theta^{(t)}) \leq H(\theta^{(t)}|\theta^{(t)}) H(θ(t+1)∣θ(t))≤H(θ(t)∣θ(t))
因为M-Step最大化Q(θ∣θ(t))Q(\theta|\theta^{(t)})Q(θ∣θ(t)),故Q(θ(t+1)∣θ(t))≥Q(θ(t)∣θ(t))Q(\theta^{(t+1)}|\theta^{(t)}) \geq Q(\theta^{(t)}|\theta^{(t)})Q(θ(t+1)∣θ(t))≥Q(θ(t)∣θ(t))。 -
结合两部分可得:
logP(X∣θ(t+1))≥logP(X∣θ(t)) \log P(X|\theta^{(t+1)}) \geq \log P(X|\theta^{(t)}) logP(X∣θ(t+1))≥logP(X∣θ(t))
4.2 收敛性分析
- 局部收敛:若似然函数有上界,且Q函数在θ\thetaθ空间连续,则EM算法收敛到局部极大值。
- 全局收敛:依赖初始值选择,可通过多次随机初始化避免较差局部最优。
4.3 Q函数的构造
Q函数的定义基于完整数据似然的期望:
Q(θ∣θ(t))=∫ZP(Z∣X,θ(t))logP(X,Z∣θ) dZ
Q(\theta|\theta^{(t)}) = \int_Z P(Z|X,\theta^{(t)}) \log P(X,Z|\theta) \, dZ
Q(θ∣θ(t))=∫ZP(Z∣X,θ(t))logP(X,Z∣θ)dZ
其意义是在隐变量的当前后验分布下,对完整似然取期望,从而将缺失数据问题转化为可优化问题。
5. 应用示例
5.1 高斯混合模型(GMM)
- E-Step:计算每个样本属于各高斯分量的后验概率(责任γik\gamma_{ik}γik):
γik=πkN(xi∣μk,Σk)∑j=1KπjN(xi∣μj,Σj) \gamma_{ik} = \frac{\pi_k \mathcal{N}(x_i|\mu_k,\Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(x_i|\mu_j,\Sigma_j)} γik=∑j=1KπjN(xi∣μj,Σj)πkN(xi∣μk,Σk) - M-Step:更新参数πk,μk,Σk\pi_k, \mu_k, \Sigma_kπk,μk,Σk:
μk=∑iγikxi∑iγik,Σk=∑iγik(xi−μk)(xi−μk)T∑iγik \mu_k = \frac{\sum_i \gamma_{ik} x_i}{\sum_i \gamma_{ik}}, \quad \Sigma_k = \frac{\sum_i \gamma_{ik} (x_i - \mu_k)(x_i - \mu_k)^T}{\sum_i \gamma_{ik}} μk=∑iγik∑iγikxi,Σk=∑iγik∑iγik(xi−μk)(xi−μk)T
5.2 隐马尔可夫模型(HMM)
- E-Step:通过前向-后向算法计算状态转移和观测概率的期望。
- M-Step:更新转移矩阵AAA和发射矩阵BBB。
6. 算法优缺点
优点
- 通用性强,适用于多种含隐变量的概率模型。
- 实现简单,仅需交替计算期望和最大化。
- 保证收敛到局部最优(尽管不一定是全局最优)。
缺点
- 收敛速度可能较慢(尤其是接近最优解时)。
- 对初始值敏感,可能陷入局部最优。
- 需能计算隐变量的后验分布(E-Step)和最大化Q函数(M-Step)。
7. 后续影响
- 机器学习:EM是高斯混合模型(GMM)、主题模型(LDA)等的基础。
- 优化改进:衍生出变分EM、随机EM(SEM)等加速方法。
- 统计学:成为处理缺失数据的标准工具之一。
9. 总结
本文提出的EM算法统一了含隐变量模型的MLE估计框架,奠定了概率图模型和统计学习的基础。尽管后续有许多改进方法,但其核心思想(E-Step和M-Step的交替优化)仍是机器学习中的重要范式。
11万+

被折叠的 条评论
为什么被折叠?



