Expectation–Maximization Algorithm_expectation-maximisation algorithm-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_17213753/article/details/78510491

本文主要介绍EM算法的推导思路。

introduction

此算法是一种寻找含有隐藏变量的概率模型的最大似然估计的通用方法。

derivation

对于含有显式变量 $X$ 和隐藏变量 $Z$ 的联合分布，考虑 $X$ 为连续型、 $Z$ 为离散型的情况，其关于 $X$ 的边缘分布可以表示为

p (X | θ) = \sum Z p (X, Z | θ)

$p(X|\theta) = \sum\limits_Z p(X,Z|\theta)$ 如果

Z $Z$ 为连续型，只需要把上式中的求和替换为积分即可。存在隐藏变量的情况下，直接求

p(X|θ) $p(X|\theta)$ 的最大似然估计及其困难，所以考虑将其转化为求

∑Zp(X,Z|θ) $\sum\limits_Z p(X,Z|\theta)$ 的最大似然估计。

为了得到 $\theta$ 的估计，假设样本集合 $X = \{x_1,\cdots,x_n\}$ 是独立同分布的，隐变量集合 $Z = \{z_1,\cdots,z_m\}$ ，则由最大似然估计有

arg max θ = \prod i = 1 n p (x i | θ) = \sum i = 1 n log \sum j = 1 m p (x i, z j | θ)

$\arg\max\limits_\theta = \prod\limits_{i=1}^n p(x_i|\theta) = \sum\limits_{i=1}^n \log \sum\limits_{j=1}^m p(x_i,z_j|\theta)$

引入关于 $Z$ 的边缘分布 $q(Z)$ ，易知 $\sum\limits_Z q(Z) = 1$ ，同时 $\log p(X|\theta) = \log\dfrac{p(X,Z|\theta)}{p(Z|X,\theta)}$ ，则有

log p (X | θ) = \sum Z q (Z) log p (X | θ) = \sum Z q (Z) log p ( X , Z | θ ) p ( Z | X , θ ) = \sum Z q (Z) log p ( X , Z | θ ) q ( Z ) + \sum Z q (Z) log q ( Z ) p ( Z | X , θ ) =  (q, θ) + D (q | | p)

$\begin{align} \log p(X|\theta) &= \sum\limits_Z q(Z)\log p(X|\theta)\\ &= \sum\limits_Z q(Z)\log\dfrac{p(X,Z|\theta)}{p(Z|X,\theta)} \\ &=\sum\limits_Zq(Z)\log\dfrac{p(X,Z|\theta)}{q(Z)} + \sum\limits_Z q(Z)\log\dfrac{q(Z)}{p(Z|X,\theta)} \\ &= \mathcal{L}(q,\theta) + D(q||p)\end{align}$

相对熵：又称KL距离，是描述两个分布 $q$ 和 $p$ 差异的一种度量，记为 $D(q \Vert p) = \sum q\dfrac{\log q}{\log p}$ ，具有非负性。

因为 $D(q||p)$ 非负，由 $\log p(X|\theta) \geq \mathcal{L}(q,\theta)$ ，得 $\mathcal{L}(q,\theta)$ 为 $\log p(X|\theta)$ 的下界；当 $D(q||p) = 0$ 时，即 $q(Z)$ 和 $p(Z|X,\theta)$ 为相同的分布时，有 $\log p(X|\theta) = \mathcal{L}(q,\theta)$ 。

由上述式子可知， $\log p(X|\theta)$ 的值与 $q(Z)$ 无关，所以当 $\theta$ 固定时，可以通过令 $D(q||p) = 0$ 来提高 $\log p(X|\theta)$ ，从而得到更大的似然函数。即 $\max\log p(X|\theta_{old}) = \mathcal{L}(q,\theta_{old}),q=p$ ，这就是EM算法中的E步骤。

当 $q$ 固定时，可以通过调整 $\theta$ 使得 $\mathcal{L}(q,\theta)$ 最大化，注意到 $D(q||p) = 0$ 非负，那么 $\log p(X|\theta)$ 也会被提高。即 $\max\log p(X|\theta) = \mathcal{L}(q,\theta_{new})+D(q||p),\theta_{new} = \arg\max\limits_\theta\mathcal{L}(q,\theta)$ ，这就是EM算法中的M步骤。

通过E和M步骤的反复执行，可以使 $p(X|\theta)$ 不断提高直至最大，当 $p(X|\theta)$ 的值不再变化时算法结束。

另外，可以通过构造Jensen不等式的方法进行推导，在最后列出作为一个参考。

summary

此算法的思想是每次只改变一个变量，不同步骤对不同变量进行调整，同时保证每一步处理后的似然函数非减，这样就能够使其在有限步内收敛到最大值——对于含有隐藏变量的概率模型的极大似然估计问题而言，经过转换之后的变量为 $\theta$ 和 q <script type="math/tex" id="MathJax-Element-45">q</script>，这里所说的变量是广义变量。当问题的变量数目大于2时，可以将EM算法进一步推广，采用相同的思路进行解决，当然为了获得适当(可以求取)的变量，相应的推导过程是至关重要的。