机器学习之EM算法

最新推荐文章于 2021-05-23 10:23:31 发布

IT_xiao兵

最新推荐文章于 2021-05-23 10:23:31 发布

阅读量191

点赞数

CC 4.0 BY-SA版权

分类专栏： ML

本文链接：https://blog.youkuaiyun.com/weixin_35708219/article/details/82463939

ML 专栏收录该内容

3 篇文章

订阅专栏

预备知识

1 jensen不等式

回顾优化理论中的一些概念。设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。当x是向量时，如果其hessian矩阵H是半正定的（），那么f是凸函数。如果或者，那么称f是严格凸函数。

Jensen不等式表述如下：

如果f是凸函数，X是随机变量，那么

特别地，如果f是严格凸函数，那么当且仅当，也就是说X是常量。

这里我们将简写为。

如果用图表示会很清晰：

图中，实线f是凸函数，X是随机变量，有0.5的概率是a，有0.5的概率是b。（就像掷硬币一样）。X的期望值就是a和b的中值了，图中可以看到成立。

当f是（严格）凹函数当且仅当-f是（严格）凸函数。

Jensen不等式应用于凹函数时，不等号方向反向，也就是。

当且仅当X为常数，等号成立。

EM算法

推导过程

$L(\theta ) = \sum_{i}ln\; p(x^{(i)};\theta )= \sum_{i}ln\sum_{z^{(i)}}p(x^{(i)},z^{(i)};\theta )$ (1)

令Qi表示隐含变量Z的某种分布，Qi满足的条件是 $\sum_{z}Q(z^{(i)}) = 1, Q(z)\geq 0$ 。

（1）式变换为

$=\sum_{i}ln\sum_{z^{(i)}}Q_{i}(z^{(i)}) \frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})}$ (2)

根据数学期望公式： $E[f(X)] = \sum_{i}f(x_i)p(x_i)$ 。 $f(z^{(i)}) = \frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})}$

有： $p(z^{(i)}) =Q_{i}(z^{(i)})$ ，（2）式中 $\sum_{z^{(i)}}Q_{i}(z^{(i)}) \frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})}$ 是 $\frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})}$ 的数学期望。

$\sum_{i}ln(E[\frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})}]])$ (3)

根据Jensen不等式：

$f(x) = ln\;x$ 是凹函数， $f(E(x))\geq E[f(x)]$ ,

$\sum_{i}ln(E[\frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})}])\geq \sum_{i}E[ln\frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})}]$ (4)

$\sum_{i}E[ln\frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})}] = \sum_{i}\sum_{z^{(i)}}Q_{i}(z^{(i)})ln\frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})}$ (5)

$L(\theta ) \geq \sum_{i}\sum_{z^{(i)}}Q_{i}(z^{(i)})ln\frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})}$ (5)

(5）式是参数 $\theta$ 的对数似然函数的下界。

等式成立的条件

根据Jensen不等式， $f(E(x))\geq E[f(x)]$ ，当且仅当x为常数时，等号成立。和 $\sum_{z}Q(z^{(i)}) = 1, Q(z)\geq 0$ ，有：

$\frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})} = C$

$\Rightarrow$ $p(x^i,z^i;\theta ) = C(Q_i(z^{(i)}))$

、

$\Rightarrow \sum_{z}p(x^i,z^i;\theta ) = \sum_{z}C(Q_i(z^{(i)}))$

$\Rightarrow \sum_{z}p(x^i,z^i;\theta ) = C$

又有 $Q_{i}(z^{(i)}) =\frac{p(x^i,z^i;\theta )}{\sum_{z}p(x^i,z^i;\theta ) }=\frac{p(x^i,z^i;\theta )}{p(x^i;\theta ) } = p(z^i|x^i;\theta )$

EM算法流程

初始化分布参数 $\theta$ ；重复E、M步骤直到收敛

E-step:选择隐含变量的概率分布 $Q_{i}(z^{(i)}) :=p(z^i|x^i;\theta )$

M-step: $\theta :=arg\; \underset{\theta }{max}\sum_{i}\sum_{z^{(i)}}Q_{i}(z^{(i)})ln\frac{p(x^i,z^i;\theta )}{Q_{i}(z^{(i)})}$ \

EM算法收敛性

那么究竟怎么确保EM收敛？假定和是EM第t次和t+1次迭代后的结果。如果我们证明了，也就是说极大似然估计单调增加，那么最终我们会到达最大似然估计的最大值。下面来证明，选定后，我们得到E步

这一步保证了在给定时，Jensen不等式中的等式成立，也就是

然后进行M步，固定，并将视作变量，对上面的求导后，得到，这样经过一些推导会有以下式子成立：

解释第（4）步，得到时，只是最大化，也就是的下界，而没有使等式成立，等式成立只有是在固定，并按E步得到时才能成立。

况且根据我们前面得到的下式，对于所有的和都成立

第（5）步利用了M步的定义，M步就是将调整到，使得下界最大化。因此（5）成立，（6）是之前的等式结果。

这样就证明了会单调增加。一种收敛方法是不再变化，还有一种就是变化幅度很小。

再次解释一下（4）、（5）、（6）。首先（4）对所有的参数都满足，而其等式成立条件只是在固定，并调整好Q时成立，而第（4）步只是固定Q，调整，不能保证等式一定成立。（4）到（5）就是M步的定义，（5）到（6）是前面E步所保证等式成立条件。也就是说E步会将下界拉到与一个特定值（这里）一样的高度，而此时发现下界仍然可以上升，因此经过M步后，下界又被拉升，但达不到与另外一个特定值一样的高度，之后E步又将下界拉到与这个特定值一样的高度，重复下去，直到最大值。