机器学习-------- EM算法推导及高斯混合分布

最新推荐文章于 2024-04-15 16:42:53 发布

疯子书生z

最新推荐文章于 2024-04-15 16:42:53 发布

阅读量595

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/qq_42240729/article/details/105706937

版权

1. 前言

EM算法是机器学习十大算法之一，它很简单，但是也同样很有深度，简单是因为它就分两步求解问题，

E步：求期望（expectation）
M步：求极大（maximization)

深度在于它的数学推理涉及到比较繁杂的概率公式等，所以本文会介绍很多概率方面的知识，不懂的同学可以先去了解一些知识，当然本文也会尽可能的讲解清楚这些知识，讲的不好的地方麻烦大家评论指出，后续不断改进完善。

2.EM算法引入

概率模型有时候既含有观测变量，又含有隐变量或潜在变量，如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法，或贝叶斯估计方法估计模型参数，但是当模型含有隐变量时，就不能简单的使用这些方法，EM算法就是含有隐变量的概率模型参数的极大似然估计法，或极大后验概率估计法，我们讨论极大似然估计，极大后验概率估计与其类似。
参考统计学习方法书中的一个例子来引入EM算法，假设有3枚硬币，分别记做A、B、C，这些硬币正面出现的概率分别是 $\pi$ 、 $p$ 、 $q$ ，进行如下实验：

先掷硬币A，根据结果选出硬币B和硬币C，正面选硬币B，反面选硬币C
通过选择出的硬币，掷硬币的结果出现正面为1，反面为0
如此独立地重复n次实验，我们当前规定n=10，则10次的结果如下所示：
$1, 1, 0, 1, 0, 0, 1, 0, 1, 1$
假设只通过观测到掷硬币的结果，不能观测掷硬币的过程，问如何估计三个硬币出现正面的概率？
我们来构建这样一个三硬币模型：
$\begin{aligned} P(y|\theta) &=\sum_{z}P(y,z|\theta)=\sum_{z}P(z|\theta)P(y|z,\theta) \\ &=\pi p^{y}(1-p)^{1-y}+(1-\pi)q^{y}(1-q)^{1-y} \end{aligned}$
若 $y = 1$ ，表示这此看到的是正面，这个正面有可能是B的正面，也可能是C的正面，则 $P(1|\theta)=\pi p+(1-\pi)q$
若 $y = 0$ ，则 $P(0|\theta)=\pi (1-p)+(1-\pi)(1-q)$

y是观测变量，表示一次观测结果是1或0，z是隐藏变量，表示掷硬币A的结果，这个是观测不到结果的， $\theta=(\pi,p,q)$ 表示模型参数，将观测数据表示为 $Y=(Y_1,Y_2,...,Y_n)^{T}$ ，未观测的数据表示为 $Z=(Z_1,Z_2,...,Z_n)^{T}$ ，则观测函数的似然函数是：
$\begin{aligned} P(Y|\theta)&=\sum_{Z}P(Z|\theta)P(Y|Z,\theta)\\ &=\prod_{i=0} ( \pi p^{y_i}(1-p)^{1-y_{i}}+(1-\pi)q^{y_{i}}(1-q)^{1-y_{i}}) \end{aligned}$
考虑求模型参数 $\theta=(\pi,p,q)$ 的极大似然估计，即：
$\hat{\theta}=arg\max_{\theta}logP(Y|\theta)$
这个问题没有解析解，只有通过迭代方法来求解，EM算法就是可以用于求解这个问题的一种迭代算法，下面给出EM算法的迭代过程：

首先选取初始值，记做 $\theta^{0}=(\pi^{0},p^{0},q^{0})$ ，第i次的迭代参数的估计值为 $\theta^{i}=(\pi^{i},p^{i},q^{i})$
E步：计算在模型参数 $\pi^{i}，p^{i}，q^{i}$ 下观测变量 $y_i$ 来源于硬币B的概率：
$\mu^{i+1}=\frac{\pi^{i}(p^{i})^{y_i}(1-p^i)^{1-y_i}}{\pi^{i}(p^{i})^{y_i}(1-p^i)^{1-y_i}+(1-\pi^{i})(q^{i})^{y_i}(1-p^i)^{1-y_i}}$
备注一下：这个公式的分母是 $P(Y|\theta)$ ，分子表示是来源与B硬币的概率。
M步：计算模型参数的新估计值：
$\pi^{i+1}=\frac{1}{n}\sum_{j=1}^{n}\mu_{j}^{i+1}$
因为B硬币A硬币出现正面的结果，所以A硬币概率就是 $\mu_{j}$ 的平均值。
$p^{i+1}=\frac{\sum_{j=1}^{n}\mu_{j}^{i+1}y_j}{\sum_{j=1}^{n}\mu_{j}^{i+1}}$
分子乘以 $y_{i}$ ，所以其实是计算B硬币出现正面的概率。
$q^{i+1}=\frac{\sum_{j=1}^{n}(1-\mu_{j}^{i+1})y_j}{\sum_{j=1}^{n}(1-\mu_{j}^{i+1})}$
$(1-\mu_{j}^{i+1})$ 表示出现C硬币的概率。

闭环形成，从 $P(Y|\theta)$ 到 $\pi、p、q$ 一个闭环流程，接下来可以通过迭代法来做完成。针对上述例子，我们假设初始值为 $\pi^{0}=0.5，p^{0}=0.5，q^{0}=0.5$ ，因为对 $y_i=1$ 和 $y_i=0$ 均有 $\mu_j^{1}=0.5$ ，利用迭代公式计算得到 $\pi^{1}=0.5，p^{1}=0.6，q^{1}=0.6$ ，继续迭代得到最终的参数：
$\widehat{\pi^{0}}=0.5，\widehat{p^{0}}=0.6，\widehat{q^{0}}=0.6$
如果一开始初始值选择为：

最低0.47元/天解锁文章