EM(Expectation Maximization) 算法

最新推荐文章于 2022-10-25 21:21:43 发布

原创最新推荐文章于 2022-10-25 21:21:43 发布 · 274 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#EM(Expetation Maximization)

机器学习专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了EM算法的工作原理及其在极大似然估计与最大后验估计中的应用，通过数学推导展示了EM算法的具体步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

EM(Expectation Maximization)

EM算法是一种极大似然估计算法，当然也可以对EM算法做一定修正后用于最大后验估计，此博文推导EM算法并且修正EM使其用于最大后验估计。

EM

假设观测到的不完整数据集为 $\mathbf X$ ，隐变量表示为 $\mathbf Z$ , 估计参数为 $\theta$ , 根据极大似然估计

θ^= arg max θ log p (X | θ)

$\hat\theta =\mathop{\arg\max}_{\theta}~\log p(\mathbf X|\theta)$
上式中只涉及到了

XX $\mathbf X$ 的分布，我们假设

ZZ $\mathbf Z$ 的分布为

q(Z|θ)q(Z|θ) $q(\mathbf Z|\theta)$ .

L (θ) = log p (X | θ) = \sum Z q (Z | θ) log p (X | θ)

$L(\theta) =\log p(\mathbf X|\theta)=\sum_{\mathbf Z}q(\mathbf Z|\theta)\log p(\mathbf X|\theta)$
利用贝叶斯定理

L (θ) = \sum Z q (Z | θ) log p (X | θ) = \sum Z q (Z | θ) log p ( X , Z | θ ) p ( Z | X , θ ) = \sum Z q (Z | θ) log {p ( X , Z | θ ) q ( Z | θ ) q ( Z | θ ) p ( Z | X , θ )} = \sum Z q (Z | θ) log p ( X , Z | θ ) q ( Z | θ ) - \sum Z q (Z | θ) log p ( Z | X , θ ) q ( Z | θ ) = L (q, θ) + K L (q | | p)

$L(\theta) =\sum_{\mathbf Z}q(\mathbf Z|\theta)\mathop{\log}p(\mathbf X|\theta)=\sum_{\mathbf Z}q(\mathbf Z|\theta)\mathop{\log}\frac{p(\mathbf X,\mathbf Z|\theta)}{p(\mathbf Z|\mathbf X,\theta)}\\ =\sum_{\mathbf Z}q(\mathbf Z|\theta)\mathop{\log}\{\frac{p(\mathbf X,\mathbf Z|\theta)}{q(\mathbf Z|\theta)}\frac{q(\mathbf Z|\theta)}{p(\mathbf Z|\mathbf X,\theta)}\}\\ =\sum_{\mathbf Z}q(\mathbf Z|\theta)\mathop{\log}\frac{p(\mathbf X,\mathbf Z|\theta)}{q(\mathbf Z|\theta)}\\-\sum_{\mathbf Z}q(\mathbf Z|\theta)\mathop{\log}\frac{p(\mathbf Z|\mathbf X,\theta)}{q(\mathbf Z|\theta)}\\=\mathcal L(q,\theta)+KL(q||p)$
即

L (θ) = L (q, θ) + K L (q | | p)

$L(\theta)= \mathcal L(q,\theta)+KL(q||p)$
其中

L(q,θ)L(q,θ) $\mathcal L(q,\theta)$ 和 KL(q||p)分别是，

L (q, θ) = \sum Z q (Z | θ) log p ( X , Z | θ ) q ( Z | θ )

$\mathcal L(q,\theta)=\sum_{\mathbf Z}q(\mathbf Z|\theta)\mathop{\log}\frac{p(\mathbf X,\mathbf Z|\theta)}{q(\mathbf Z|\theta)}$

K L (q | | p) = - \sum Z q (Z | θ) log p ( Z | X , θ ) q ( Z | θ )

$KL(q||p)=-\sum_{\mathbf Z}q(\mathbf Z|\theta)\mathop{\log}\frac{p(\mathbf Z|\mathbf X,\theta)}{q(\mathbf Z|\theta)}$
在这两个式子中，我们首先需要确定隐变量的概率分布

q(Z|θ)q(Z|θ) $q(\mathbf Z|\theta)$ ,其次我们还需要最大化

L(θ)L(θ) $L(\theta)$ 。利用

KL(q||p)KL(q||p) $KL(q||p)$ 散度的性质

K L (q | | p) ≧ 0

$KL(q||p)\geqq0$ 当且仅当

q(Z|θ)=p(Z|X,θ)q(Z|θ)=p(Z|X,θ) $q(\mathbf Z|\theta)=p(\mathbf Z|\mathbf X,\theta)$ 时，取到等号。
我们有

L (θ) ≧ L (q, θ)

$L(\theta)\geqq\mathcal L(q,\theta)$
所以

L(q,θ)L(q,θ) $L(q,\theta)$ 是

L(θ)L(θ) $L(\theta)$ 的下界，我们不直接最大化

L(θ)L(θ) $L(\theta)$ ，相反我们最大化它的下界

L(q,θ)L(q,θ) $L(q,\theta)$ ，

L(q,θ)L(q,θ) $L(q,\theta)$ 是关于q和

θθ $\theta$ 的函数，我们先关于

q(Z|θ)q(Z|θ) $q(\mathbf Z|\theta)$ 最大化

L(q,θ)L(q,θ) $L(q,\theta)$ ,由于

L(θ)=L(q,θ)+KL(q||p)L(θ)=L(q,θ)+KL(q||p) $L(\theta)= \mathcal L(q,\theta)+KL(q||p)$ 并且

L(θ)L(θ) $L(\theta)$ 和

q(Z|θ)q(Z|θ) $q(\mathbf Z|\theta)$ 无关，所以不管

q(Z|θ)q(Z|θ) $q(\mathbf Z|\theta)$ 如何变化，

L(θ)L(θ) $L(\theta)$ 保持不变，所以，为了使得

L(q,θ)L(q,θ) $L(q,\theta)$ 最大，那么则应该使得

KL(q||p)KL(q||p) $KL(q||p)$ 最小，即

KL(q||p)=0KL(q||p)=0 $KL(q||p)=0$ ，所以有

q (Z | θ) = p (Z | X, θ)

$q(\mathbf Z|\theta) = p(\mathbf Z|\mathbf X,\theta)$
接下来我们还需要关于参数

θθ $\theta$ 最大化

L(q,θ)L(q,θ) $L(q,\theta)$ ,假设我们迭代到了第

ii $i$ 次，则第

i + 1

$i+1$ 的参数更新

L (q, θ) = \sum Z q (Z | θ (i)) log p ( X , Z | θ ) q ( Z | θ ( i ) )

$L(q,\theta)=\sum_{\mathbf Z}q(\mathbf Z|\theta^{(i)})\log\frac{p(\mathbf X,\mathbf Z|\theta)}{q(\mathbf Z|\theta^{(i)})}$
丢掉和

θ(i)θ(i) $\theta^{(i)}$ 有关的量，有

L (q, θ) = \sum Z q (Z | θ (i)) log p (X, Z | θ) + C

$L(q,\theta)=\sum_{\mathbf Z}q(\mathbf Z|\theta^{(i)})\log{p(\mathbf X,\mathbf Z|\theta)}+C$
令

Q (θ, θ (i)) = \sum Z q (Z | θ (i)) log p (X, Z | θ)

$Q(\theta,\theta^{(i)})=\sum_{\mathbf Z}q(\mathbf Z|\theta^{(i)})\log{p(\mathbf X,\mathbf Z|\theta)}$
所以我们只需要最大化函数

Q(θ,θ(i))Q(θ,θ(i)) $Q(\theta,\theta^{(i)})$ 即可

θ (i + 1) = arg max θ Q (θ, θ (i))

$\theta^{(i+1)}=\mathop{\arg\max}_{\theta}Q(\theta,\theta^{(i)})$

EM算法流程

初始化参数 $\theta^{(0)}$ 和设置迭代次数 $I$
- E步
  根据第 $i$ 次估计参数，计算隐变量 $\mathbf Z$ 的分布 $q(\mathbf Z|\theta^{(i)})$ $q (Z | θ (i)) = p (Z | X, θ (i))$ $q(\mathbf Z|\theta^{(i)}) = p(\mathbf Z|\mathbf X,\theta^{(i)})$
  计算完全数据集的期望
  $Q (θ, θ (i)) = \sum Z q (Z | θ (i)) log p (X, Z | θ)$ $Q(\theta,\theta^{(i)})=\sum_{\mathbf Z}q(\mathbf Z|\theta^{(i)})\log{p(\mathbf X,\mathbf Z|\theta)}$
收敛性条件

除了预先设定迭代次数，也可以设定迭代终止条件。因为 $Q(\theta,\theta^{(i)})$ 会一直增大，如果函数 $Q(\theta,\theta^{(i)})$ 满足下述条件时，可认为EM算法已经收敛到局部最大值

$| Q (θ (i + 1), θ (i)) - Q (θ (i), θ (i)) | \leq ϵ$ $|Q(\theta^{(i+1)},\theta^{(i)})-Q(\theta^{(i)},\theta^{(i)})|\leq\epsilon$ ，其中 $\epsilon$ 是一个很小的大于零的常数。
最大后验估计

根据上边的推导有

$log p (X | θ) = L (θ) = L (q, θ) + K L (q | | p)$ $\log p(\mathbf X|\theta)=L(\theta)= \mathcal L(q,\theta)+KL(q||p)$
当我们考虑参数 $\theta$ 有先验概率时，根据贝叶斯定理
$p (θ | X) = p ( X | θ ) p ( θ ) p ( X )$ $p(\theta|\mathbf X) = \frac{p(\mathbf X|\theta)p(\theta)}{p(\mathbf X)}$
所以有
$L (θ) = log (θ | X) = log p (X | θ) + log p (θ) - log p (X) = L (q, θ) + K L (q | | p) + log p (θ) - log (X) ≧ L (q, θ) + log p (θ) - log p (X)$ $L(\theta)=\log(\theta|\mathbf X)=\log p(\mathbf X|\theta)+\log p(\theta)-\log p(\mathbf X)\\ = \mathcal L(q,\theta)+KL(q||p)+\log p(\theta)-\log (\mathbf X)\\ \geqq\mathcal L(q,\theta)+\log p(\theta)-\log p(\mathbf X)$
同样的思路，我们最大化 $L(\theta)$ 的下界，当 $KL(q||p)=0$ 时，有下界最大，此时
$q (X | θ) = p (Z | X, θ)$ $q(\mathbf X|\theta) = p(\mathbf Z|\mathbf X,\theta)$
紧接着我们关于参数 $\theta$ 最大化下界 $\mathcal L(q,\theta)+\log p(\theta)-\log p(\mathbf X)$ ,同样地，我们丢掉和参数 $\theta$ 无关的项，可得
$L (q, θ) + log p (θ) - log p (X) = \sum Z p (Z | X, θ (i)) log p ( X , Z | θ ) p ( Z | X , θ ( i ) ) + log p (θ) + C 1 = \sum Z p (Z | X, θ (i)) log p (X, Z | θ) + log p (θ) + C 2 = Q (θ, θ (i)) + C 2$ $\mathcal L(q,\theta)+\log p(\theta)-\log p(\mathbf X)=\sum_{\mathbf Z}p(\mathbf Z|\mathbf X,\theta^{(i)})\log \frac{p(\mathbf X,\mathbf Z|\theta)}{p(\mathbf Z|\mathbf X,\theta^{(i)})}+\log p(\theta)+C_{1}\\= \sum_{\mathbf Z}p(\mathbf Z|\mathbf X,\theta^{(i)})\log p(\mathbf X,\mathbf Z|\theta)+\log p(\theta)+C_{2}\\ =Q(\theta,\theta^{(i)})+C_{2}$
所以有
$Q (θ, θ (i)) = \sum Z p (Z | X, θ (i)) log p (X, Z | θ) + log p (θ)$ $Q(\theta,\theta^{(i)})=\sum_{\mathbf Z}p(\mathbf Z|\mathbf X,\theta^{(i)})\log p(\mathbf X,\mathbf Z|\theta)+\log p(\theta)$
所以，在EM算法中，最大后验估计和最大似然估计在E步中，计算 $q(\mathbf X|\theta)$ 没有发生变化，只是 $Q(\theta,\theta^{(i)})$ 中增加了先验信息 $\log p(\theta)$ .