高斯混合算法（GMM）与最大期望算法（EM）的推导

最新推荐文章于 2020-04-04 16:17:14 发布

风吹草地现牛羊的马

最新推荐文章于 2020-04-04 16:17:14 发布

阅读量1.9k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/mch2869253130/article/details/90290236

版权

机器学习专栏收录该内容

97 篇文章

订阅专栏

由于EM算法的推导常使用GMM算法来举例子，故下面先介绍高斯混合算法

一般的高斯算法（单个高斯）

在这里插入图片描述
上式是单个高斯分布，对于单个高斯分布，给定一组观测数据，求参数时通常用MLE（极大似然估计)就可以了，具体做法就是分别对均值和方差求导数，然后令导数=0求解即可。

高斯混合算法

在这里插入图片描述
上面是高斯混合算法的一般形式和对数似然函数形式。与单个高斯分布相比，GMM算法是由k个高斯加权平均混合而成的， $\pi_{k}$ 是第k个高斯所占的权重（也就是每个高斯的先验概率），每个高斯均有自己的均值和方差，因此GMM共有 $3 k$ 个未知参数，但是又因为 $\pi_{k}$ 的和为1，故最终若确定了前面 $k - 1$ 个 $\pi_{i}$ ，最后一个 $\pi_{k}$ 就确定了，故共有 $3 k - 1$ 个未知参数。

从似然函数可以看出，GMM算法的对数似然函数中 $l o g$ 里面是和式，故不能使用MLE来求解这 $3 k - 1$ 个未知参数。应该使用EM算法来求解。
在这里插入图片描述
从这个图可以看出，样本空间中的一个样本点 $x_{1}$ 的概率值是 $x_{1}$ 分别由2个高斯产生的概率加权而成的，这个权值就是前面的 $\pi_{k}$ 。从这里也可以看出GMM算法是软聚类算法，一个样本点是同时属于多个cluster，只是属于每个cluster的程度不同，样本点 $x_{1}$ 最终属于哪个类就取 $\pi_{k}$ 最大的那一类。

公式推导

下面的公式推导要用到贝叶斯公式和全概率公式，如果不清楚可以看链接：全概率公式、贝叶斯公式推导过程

单个样本 $x$ 的概率如下式
在这里插入图片描述
对于(1)式，对于单个样本点 $x$ ，虽然我们并不能观测到 $x$ 是属于哪一类的，但是 $x$ 肯定是属于 $k$ 类中的某一类，因此这里就存在一个隐变量，我们设为 $z$ ， $z 是一个 K 维的 o n e - h o t 向量$ ，只有第k维为1，其余为0，表示样本点 $x$ 属于第k类。
$p(z_{k}=1)=\pi_{k}$
上面的式子表示样本点 $x$ 属于第k类的概率是 $\pi_{k}$ ，若确定了样本点 $x$ 属于第k类的概率 $\pi_{k}$ ，则在这个条件下，样本点在第k类高斯分布中的概率分布就变成了单个的高斯分布。
$p(x|z_{k}=1)=N(x|\mu_{k},\Sigma_{k})$
最终将样本点 $x$ 在k个高斯分布下的概率累加就是(2)式，也就是最终的GMM分布的概率公式
$\tag{2} \begin{aligned} p(x) = &\sum_{z}p(z)p(x|z) \\ = &\sum_{k=0}^{K-1} \pi_{k}N(x|\mu_{k}, \Sigma_{k}) \end{aligned}$
（2）式是由全概率公式得到的（ $可以看作最终的概率 p (x) 被分割为 k 个独立的子事件 p (x ∣ z)$ ）。

由贝叶斯定理可以知道， $p (z) 是先验概率， p (x ∣ z) 是似然概率$ ，那么可以很方便的求出后验概率 $p (z ∣ x)$ 。
$\begin{aligned} p(z|x) = & {p(z)p(x|z) \over p(x)} \\ = &{\pi_{k}N(x|\mu_{k},\Sigma_{k}) \over \sum_{k=0}^{K-1}\pi_{k}N(x|,\mu_{k}, \Sigma_{k})} \end{aligned}$
给定一个样本点 $x_{n}$ ，并且已知GMM模型的参数（也就是 $\pi, \mu,\Sigma$ ）,求其属于第k类的概率是：
$\tag{3} \gamma_{nk}=p(z_{k}=1|x_{n})={\pi_{k}N(x_{n}|\mu_{k},\Sigma_{k}) \over \sum_{k=0}^{K-1}\pi_{k}N(x_{n}|,\mu_{k}, \Sigma_{k})}$
对于一个样本 $x_{n}$ ，其后验概率 $\gamma_{nk}$ 的和为1， $\gamma_{nk}$ 表示样本 $x_{n}$ 属于第k类cluster的概率。

假设我们有一组数据 $X={x_{1},x_{2},,,x_{n}}$ ，并且知道这组数据中的每一个数据都是由哪个高斯产生的，也就是对于样本集 $X$ 中的某个样本 $x_{t}$ ，知道其对应的 $z_{t}（一个K维向量）,其中z_{t0}=0,z_{t1}=0,..,z_{ti}=1,..,z_{tK}=0$ 。这样的 $x_t, z_t)$ 我们称为完全数据。那么这组完全数据的似然函数就是
$p(X,Z|\theta)=p(X,Z|\pi,\mu,\Sigma)=\prod_{t=1}^{n} \prod_{k=1}^{K}(\pi_{k}N(x_{t}|\mu_{k},\Sigma_{k}))^{z_{tk}}$
其中 $\theta$ 是k个高斯的参数，每个高斯含有3个参数，X是样本空间。

EM算法的推导

在这里插入图片描述
（6）式可由概率论的知识得到，其含义是在已知GMM参数的情况下， $X, Z$ 的联合概率分布。
将（6）式中的 $p(Z|X，\theta)$ 移到等号左边并取对数
$\tag{7} logp(X|\theta) = log{p(X, Z|\theta) \over p(Z|X,\theta)}$

将（7）式等号右边分子分母同时除以 $Z 的真实分布 q (Z)$ ：
在这里插入图片描述
在上式两边同时乘以 $Z 的真实分布 q (Z) 并对 Z 积分$ 得（相当于对 $logp(X|\theta)$ 求期望）

由于 $logp(X|\theta)$ 不含有Z，故最后 $q (Z)$ 积分结果为1。
对等式右边积分结果如下：

第二项连同负号是KL散度的形式，恒大于等于0，故有 $logp(X|\theta) \ge Q$

在这里插入图片描述
即Q函数是似然函数 $logp(X|\theta)$ 的一个下界，要最大化似然函数，只要最大化Q函数就可以了。 $q (Z) 是 Z$ 的真实分布，虽然我们无法观测到，但是必定存在，在推导中用 $\theta^{old})$ 来代替 $q (Z)$ 。 $a r g m a x$ 中，后面那一项与?没有关系，故可以甩掉。

最后令上面的结果等于新的 $Q$ ，新的Q函数中含有已知量 $\theta^{old}和未知量\theta$ 。
至此，EM算法推导结束。

下面总结一下EM算法：
在这里插入图片描述
E-step：根据参数 $\theta^{old}$ 计算每个样本由第k类高斯产生的概率，也就是前面提到的后验概率 $\gamma_{nk}$ ，将其值带入 $Q$ 函数，如上式所示。
根据Q函数的表达式可以看出，Q函数相当于是对变量 $logp(z_{i}, x_{i}│\theta)$ 求期望（将 $p(z_{i}|x_{i}, \theta^{old})$ 看作其概率分布）。
这里的Q函数其实就是我们要求的似然函数的下界。
在这里插入图片描述
M-Step：根据计算得到的 $\gamma_{nk}$ ，求出含有 $θ$ 的似然函数的下界（也就是Q函数）并最大化它，得到参数 $θ$ 的新值。
从图中可以看出，EM算法是迭代的求解参数，但是直接求解似然函数有困难，所以找到似然函数的一个下界Q函数，
每次先固定 $Θ$ ，然后求出 $Q (Θ)$ 的表达式，再最大化 $Q (Θ)$ 。 $Q$ 函数相当于是对 $logp(z_{i}, x_{i}│\theta)$ 求期望，故称作最大期望算法。