Chapter 09 Mixture Models and EM
本章《PRML》主要介绍的概念是期望最大化算法(Expectation Maximization Algorithm, EM),该方法主要用于含有隐变量(latent variable)的概率模型参数的极大似然估计。混合高斯模型即是利用EM算法进行的计算。
文章目录
EM
a. Expectation Maximization Algorithm
一般地,如果概率模型的变量都是观测变量(observable variable),无隐变量,那么可以直接使用极大似然估计或者贝叶斯估计,解析地求得模型的参数。但是,当含有隐变量时,以上方法就得不到解析解了,就只能够得到模型参数关于隐变量的一个函数。
通常来说,对于观测数据 X X X,参数 θ \theta θ,我们希望通过最大化对数似然函数 l o g p ( X ∣ θ ) log p(X | \theta) logp(X∣θ)得到参数 θ \theta θ的估计,当有隐变量 Z Z Z时,我们希望能够最大化 l o g p ( X , Z ∣ θ ) log p(X,Z|\theta) logp(X,Z∣θ)。一般地,对于含隐变量的情况,我们定义 X X X为观测随机变量数据, Z Z Z表示隐随机变量数据,
- 完全数据(complete-data): Y Y Y和 Z Z Z在一起;
- 不完全数据(incomplete-data):只有观测数据 Y Y Y。
EM算法求解 L ( θ ) = l o g p ( X , Z ∣ θ ) L(\theta)= log p(X,Z|\theta) L(θ)=logp(X,Z∣θ)主要分为两步,E步,求期望;M步,求极大化。其具体形式如下,
- 输入:观测变量 X X X,隐变量 Z Z Z,联合分布 p ( X , Z ∣ θ ) p(X,Z|\theta) p(X,Z∣θ),条件分布 p ( Z ∣ X , θ ) p(Z|X,\theta) p(Z∣X,θ);
- 输出:模型参数 θ \theta θ;
- 步骤:
- 选择参数的初值 θ ( 0 ) \theta^{(0)} θ(0),开始迭代;
- E步:记 θ ( i ) \theta^{(i)} θ(i)为第 i i i次迭代参数 θ \theta θ的估计值,在第 i + 1 i+1 i+1次迭代的 E E E步,计算
(9.1) Q ( θ , θ ( i ) ) = E Z [ l o g p ( X , Z ∣ θ ) ∣ X , θ ( i ) ] = ∑ Z l o g p ( X , Z ∣ θ ) p ( Z ∣ X , θ ( i ) ) \begin{aligned} \mathcal{Q}(\theta,\theta^{(i)}) &= E_Z [log p(X,Z|\theta)|X,\theta^{(i)}] \\ &= \sum_Z log p(X,Z|\theta)p(Z|X,\theta^{(i)}) \end{aligned} \tag{9.1} Q(θ,θ(i))=EZ[logp(X,Z∣θ)∣X,θ(i)]=

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



