[Python嗯~机器学习]---EM算法的基本理解

最新推荐文章于 2024-03-16 23:16:50 发布

鹏鹏哥哥的小红帽

最新推荐文章于 2024-03-16 23:16:50 发布

阅读量759

点赞数 3

分类专栏：鹏鹏哥哥的机器学习文章标签：机器学习 EM 拉格朗日 Jessen不等式

本文链接：https://blog.youkuaiyun.com/kepengs/article/details/88030195

版权

鹏鹏哥哥的机器学习专栏收录该内容

52 篇文章

订阅专栏

EM算法的基本理解

为什么要用EM算法（最大期望算法）？

在机器学习中，我们观察样本，建立模型，然后训练，进行预测。这是一个正常的流程，但是我们想一个问题，现实生活中一定有很多因素使我们无法观测的，也就是隐含数据？怎么办？

算法。。。

如果，只有模型而没有模型参数，那么
1、先猜想隐含数据（算法的步）。
2、接着基于观察数据和猜测的隐含数据一起来极大化对数似然，求解我们的模型参数（算法的步)。
由于我们之前的隐藏数据是猜测的，所以此时得到的模型参数一般还不是我们想要的结果。不过没关系，我们基于当前得到的模型参数，继续猜测隐含数据（算法的步），然后继续极大化对数似然，求解我们的模型参数（算法的步)。以此类推，不断的迭代下去，直到模型分布参数基本无变化，算法收敛，找到合适的模型参数。

要学习算法（最大期望算法），首先要了解的是极大似然估计。。。

1、极大似然估计

总的来说：极大似然估计就是用来估计模型参数的统计学方法。

举个例子：
给定一组样本，并且他是高斯模型，怎么确定参数 $\mu$ 和 $\sigma$ ？

高斯分布的概率密度函数：

根据上面 MLE 得出的
代入每一个 x_i 的高斯概率结果得到

通过取 log 对数对上式进行化简：

这时候我们得到目标函数：

下面就是考虑如何调整 $\mu$ 和 $\sigma$ 来使得目标函数最大。

与我们高斯模型矩估计结果一致。

那么，现在引入我们的话题，随机变量无法直接（完全）观察到，怎么办？
例如：

高斯混合模型GMM

首先还是根据极大似然估计的理论建立目标函数：

$\pi _k$ 相当于每一个高斯模型的权重，总的到最后最大是。

也就是 $\pi$ 决定每个高斯模型的重要性。

EM算法

取对数似然函数

这时候引入 Jensen 不等式：

由于对数函数是凹函数，所以有： $f(E(x)) \geq E(f(x))\;\; 如果f(x) 是凹函数$

为了寻找最大的下界，那么我们使上式中的等号成立：
（1）
进一步，由于 $Q_i(z^{(i)})$ 是一种分布的概率，所以加和为：
（2）
由上式（1）和（2）得到：

所以，推到算法的过程：

如果 $Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)};\theta))$ ，那么就是我们隐藏数据对数似然的下界，那么就要极大化这个似然函数。

在固定参数 $\theta$ 后，使下界拉升的 Q(z) 的计算公式，解决了 Q(z) 如何选择的问题。这一步就是步，建立 C 的下界。接下来的步，就是在给定 Q(z) 后，调整 $\theta$ ，去极大化 V 的下界。