机器学习-- >无监督学习-- >EM算法

最新推荐文章于 2025-03-30 15:16:40 发布

村头陶员外

最新推荐文章于 2025-03-30 15:16:40 发布

阅读量6.3k

点赞数 1

分类专栏：机器学习-无监督学习文章标签：机器学习 em算法

本文链接：https://blog.youkuaiyun.com/Mr_tyting/article/details/77073447

版权

机器学习-无监督学习专栏收录该内容

3 篇文章

订阅专栏

本篇博文将详细总结机器学习里面一个非常重要的算法-EM算法。

复习Jensen不等式

若f是凸函数
这里写图片描述
凸函数即割线在函数线的上方。

基本Jensen不等式：
$f(\theta x + (1-\theta)y) <= \theta f(x) + (1-\theta)f(y)$

若
$\theta_1, \theta_2, \theta_3,....,\theta_k >= 0，\theta_1+\theta_2+....+\theta_k = 1$ , 则有
$f(\theta_1 x_1+....+\theta_k x_x) < \theta_1 f(x_1) +....+\theta_k f(x_k)$

上面是针对离散情况，若对于连续情况可以推得：若有
$\ on \ s \in dom \int_s p(x) dx = 1$
, 则可得：
$\left ( \int_sp(x)xdx \right ) <= \int_s f(x)p(x) dx$

即有
$f (E x) < = E f (x)$

其中E f(x) 表示f(x)在p(x)这样一个分布下的期望。

EM算法

EM用于含有隐变量（Hidden variable）的概率模型参数的最大似然估计。

假定有训练集

这里写图片描述

包含m个独立样本，希望从中找到该组数据的模型p(x,z)的参数。

通过最大似然估计建立目标函数：

这里写图片描述

z是隐随机变量，不方便直接找到参数估计。策略：计算l(θ)下界，求该下界的最大值；重复该过程，直到收敛到 局部最大值。

这里写图片描述

上图中有两条曲线，上方的曲线为对数似然函数l(θ)，我们的任务就是找出一个θ能使对数似然取最大值，一开始先验性的给出一个初值 $\theta_0$ ，在这一点处构造出一个比较简单的函数 $r (x ∣ θ)$ ，这个函数 $r$ 保证除了在 $\theta_0$ 点以外，其他的点都小于对数似然函数，即 $r < l$ ，如果这个简单的 $r$ 函数比较容易求极值，可以利用任何一种办法求函数r的极值，假定在 $\theta_1$ 点处， $r$ 求得极大值。那么 $A > 0 > B$ ，然后又在 $\theta_1$ 点处构造一个简单的r函数，重复以上操作，这样就可以找到对数似然函数的 局部极大值，并且找到对应的 $\theta_*$ 。

上面的操作可以归结为两个步骤，并且不断的重复这两个步骤
初始化：先验性的给出一个 $\theta$ ，然后给出一个简单的下界函数，该下界函数只在θ处与对数似然函数相等，其他点处均小于对数似然函数。

求下界函数 $r (x ∣ θ)$ 的极大值对应的 $\theta$ 。
由第一步得到更新后的 $\theta$ ，构造出对数似然函数l(θ)新的下界函数 $r (x ∣ θ)$ ，并且这个 $r$ 函数只在 $\theta$ 点处与对数似然函数相等，其他点处均小于 $l (θ)$ 。

显然问题的关键在于如何给出下界函数r(x|θ)，这是最难的部分。

Jensen不等式

令 $Q_i$ 是 $z$ 的某一个分布， $Q_i≥0$ ，有：

这里写图片描述

把 $\frac{p(x^i,z^i;\theta)}{Q_i(z^i)}$ 看作一个整体 $X$ ，那么
$\sum_{z^i}Q_i(z^i) \frac{p(x^i,z^i;\theta)}{Q_i(z^i)}$
表示对 $X$ 在 $Q_i(z^i)$ 这样一个分布上的期望。

下式中的f函数为凸函数，满足Jensen不等式中的
这里写图片描述

而log函数是凹函数，故大于等于号改为小于等于，可得：
这里写图片描述

那么等号在什么情况下成立呢？我们还是从凸函数的性质说起，在凸函数中，割线始终在函数线的上方，只有在x是某一个定常数时，即割线为函数线上一个定点时，割线上的函数值才与函数线函数值相等。

为了使等号成立：

这里写图片描述

那么分子分母呈正相关关系：
这里写图片描述

又因为Q为Z的分布，即加和为1，即要使得：
这里写图片描述

那么可以令：
这里写图片描述

这样可满足：
这里写图片描述

故当
$Q_i(z^i) = p(z^i|x^i;\theta)$ 时，下界函数与对数似然函数在 $\theta$ 处相等。

EM算法整体框架

这里写图片描述

其中E步更新 $Q$ ，使得下界函数与对数似然函数在 $\theta$ 点处相等；而M步是在求下界函数的极大值，并且更新 $\theta$ 。这两步不断的循环重复。最终使得M步下界函数的最大值与对数似然函数的局部极大值相等。

坐标上升

EM算法可以看作一个关于Q,θ的函数 J(Q,θ)：

这里写图片描述

从上面的推导，我们知道 J(Q,θ)<=l(θ)，其中J(Q,θ)可以看作是***坐标上升***，在M步求得最大化时对应的θ，然后固定θ，在E步求得该θ对应的Q。不断的重复以上操作。

利用EM算法推导GMM

随机变量X是有K个高斯分布混合而成，取各个高斯分布的概率为这里写图片描述，第i个高斯分布的均值为μi，方差为Σi。若观测到随机变量X的一系列样本x1,x2,…,xn，试估计参数，μ，Σ。

E-step

这里写图片描述

这里写图片描述表示第i个样本属于第 j 个高斯分布的概率，k 为混合高斯分布中各种高斯分布的种数，则有。

M-step

在E步得出更新后的Q(z)的分布。

将多项分布和高斯分布的参数带入：

这里写图片描述

其中这里写图片描述已确定了属于第j个高斯分布，故其只与μ，Σ有关；而表示第i个样本属于第j个高斯分布的概率，只与其对应的先验概率有关，并且等于。其中服从的多元高斯分布。

由此上式可推得：
这里写图片描述

在M步中需要对对数似然函数求最大值，并且找出其对应的参数这里写图片描述，μ，Σ，故对各参数求导数，其导数为0时对应的参数即为所估计的参数。

对均值求导：

这里写图片描述

对于矩阵A，则有这里写图片描述，若A为对称阵，则结果为2Ax。有关矩阵求导请看机器学习–>矩阵和线性代数

而上式中的这里写图片描述为协方差矩阵，对称矩阵，故为对称矩阵。那么上式可推得：

这里写图片描述

令上式等于0，这里写图片描述与i无关可以约去，则解的均值：

同理对方差Σ求偏导，使其导为0可得：

这里写图片描述

还需要对这里写图片描述求偏导，做法和上面略有不一样。

考察M-step的目标函数，对于这里写图片描述，删除常数项

得新的目标函数：
这里写图片描述

上面过程相当于简化了目标函数，删除的部分在求导以后肯定也会去掉。

那么直接对这里写图片描述求偏导吗？不是，因为是一个概率分布，即有约束条件。所以应该利用拉格朗日乘子法得：

这里写图片描述

可能有人会问不是还有不等式约束吗？这里写图片描述，注意目标函数里面有一项，这就说明在可行域上已经确定了。在该目标函数求出来的一定大于0。

于是求偏导，等于0 ：

这里写图片描述

GMM调参

这里假设有三个高斯分布组成的高斯混合模型的数据样本，假设样本是三维的，那么对于每个类来说，服从 $({u}_{i},{\sigma}_{i})$ ，其中 $u,\sigma$ 都是三维的，现在只考虑 $3 * 3$ 的协方差矩阵，有四种情况：

$f u l l ：$ 每一个类都有自己一般的协方差矩阵。
$t i e d ：$ 所有类共享相同的协方差矩阵。
$d i a g ：$ 每一个类都有自己的对角协方差矩阵。
$s p h e r i c a l ：$ 每一个类的样本的协方差矩阵的对角值都相等。

通常选择 $diag $， $ tied$可以用来防止过拟合。

那么应该选择上面四种协方差呢？
记: $L$ 为某模型下样本的似然函数值, $k$ 为模型中未知参数的个数(维度), $n$ 为样本个数，下面有两个评判准则:

$A I C = - 2 l n L ＋ 2 k$
$B I C = - 2 I n L + (L n n) k$

其实就相当于在损失函数后面加上一个正则项而已。

这里写图片描述

总结

其中m表示样本个数，这里写图片描述表示第i个样本属于第 j 个高斯分布的概率，可利用EM算法求出混合高斯模型中第j个高斯分布的先验概率，第j个高斯分布的期望（多元时为向量），第j个高斯分布的方差（多元时为协方差）。

E-steps：

这里写图片描述

M-steps：
这里写图片描述

这里写图片描述