机器学习进阶（六）EM算法

最新推荐文章于 2023-12-18 17:00:00 发布

Little Yueyue

最新推荐文章于 2023-12-18 17:00:00 发布

阅读量216

点赞数

分类专栏：菜鸟入门倒计时

本文链接：https://blog.youkuaiyun.com/little_yueyue/article/details/115739717

版权

菜鸟入门倒计时专栏收录该内容

40 篇文章

订阅专栏

前提知识
GMM高斯混合模型
EM算法
KL散度角度的EM算法
- 总结

前提知识

Jensen不等式
$\theta_1+\theta_2+,\dots,+\theta_n=1,f(x)$ 为凸函数，则有
$f(\theta_1x_1+\dots+\theta_nx_n)\le\theta_1f(x_1)+\dots+\theta_nf(x_n)$
$if\quad p(x)\ge0\quad on \quad S\subset dom \quad f,\int_Sp(x)=1,\\ then\quad f(\int_Sp(x)xdx)\le\int_Sp(x)f(x)dx$
EM算法要解决的问题
模型存在一个不能被观察到的潜变量latent variable,但是该变量会影响其他变量的取值。

GMM高斯混合模型

背景：随机变量 $X$ 是有 $k$ 个高斯分布混合而成，取各个高斯分布的概率为 $\pi_1,\pi_2...\pi_k$ 。
第 $i$ 个高斯分布的均值为 $\mu_i$ ，方差为 $\Sigma_i$ 。
设观测到随机变量 $X$ 的一系列样本 $x_1,x_2,\dots,x_n$ 。若得到的观察数据有未观察到的隐含数据 $\pi_1,\pi_2...\pi_k$ ，即上文中每个样本属于哪个分布是未知的则极大似然为 $L_{\pi,\mu,\Sigma}(x)=\prod_{i=1}^Np(x_i)=\prod_{i=1}^N\sum_{k=1}^Kp(x_i,\pi_k)=\prod_{i=1}^N\left(\sum_{k=1}^K\pi_iN(x_i|\mu_i,\Sigma_i)\right)$
第二个等号是根据 $x_i$ 的边缘概率为 $\sum_{k=1}^Kp(x_i,\pi_k)$ 计算得来，第三个等号是条件分布 $p(x_i,\pi_k)=\pi_ip(x_i,|\pi_k)$ 。

从而对数似然则为 $l_{\pi,\mu,\Sigma}(x)=\sum_{i=1}^N\log\sum_{k=1}^K\pi_iN(x_i|\mu_i,\Sigma_i)$

为了解决这个问题，分成两步：

估算数据来自的组份E-step
估计数据由每个组份生成的概率：对于每个样本 $x_i$ ，它由第 $k$ 个组份生成的概率为
$\gamma(i,k)=\frac{\pi_kN(x_i|\mu_k,\Sigma_k)}{\pi_jN(x_i|\mu_j,\Sigma_j)}$
上式中的 $\mu$ 和 $\Sigma$ 同样也是待估计的值。
使用采样迭代法：在计算 $\gamma(i,k)$ 时假定 $\mu$ 和 $\Sigma$ 已知，即需要先验给定 $\mu$ 和 $\Sigma$ （对初值选择是敏感的，需要一些其他知识）。 $\gamma(i,k)$ 亦可看成组份 $k$ 在生成数据 $x_i$ 时所做的贡献。
估计每个组份的参数M-step
对于样本点 $x_i$ 而言，可看成是每个组份 $k$ 生成 $\{\gamma(i,k)x_i\}$ 共同组成了 $x_i$ 。其中，组份 $k$ 是一个标准的高斯分布。
$\begin{aligned} N_{k}&=\sum_{i=1}^{N} \gamma(i, k) \\ \mu_{k}&=\frac{1}{N_{k}} \sum_{i=1}^{N} \gamma(i, k) x_{i} \\ \Sigma_{k}&=\frac{1}{N_{k}} \sum_{i=1}^{N} \gamma(i, k)\left(x_{i}-\mu_{k}\right)\left(x_{i}-\mu_{k}\right)^{T} \\ \pi_{k}&=\frac{N_{k}}{N}=\frac{1}{N} \sum_{i=1}^{N} \gamma(i, k) \end{aligned}$

EM算法

令 $X$ 成为观察到的变量，其密度函数为 $p_{\theta}(x)$ 。
令 $Z$ 成为缺失变量或潜在变量。引入其分布函数为 $Q (z)$ ，密度函数为 $q (z)$ 。
令 $p_{\theta}(X,Z)$ 为 $(X, Z)$ 的真实联合分布， $p_{\theta}(Z|X)$ 为给定 $X, Z$ 的条件分布。

对数似然函数即为：
$l(\theta)=\sum_i^n \log p_{\theta}(x)=\sum_i^n \log \sum_z p_{\theta}(x,z)$
z是隐变量，不方便直接找到参数估计。
策略： 计算 $l (θ)$ 下界，求该下界的最大值；重复该过程，直到收敛到局部最大值。这一迭代过程，实质是在不断地提高下界。

计算下界

令 $q_i$ 是 $Z$ 的某一个分布 , $q_i\geq0$ ，有:
$\begin{aligned} l(\theta)=&\sum_{i=1}^{m} \log \sum_{z_i=1}^k p(x_i, z_i ; \theta)\\ =&\sum_{i=1}^{m} \log \sum_{z_i=1}^k p\left(x_i, z_i ; \theta\right) \\ =&\sum_{i=1}^{m} \log \sum_{z_i=1}^k q_{i}\left(z_i\right) \frac{p\left(x_i, z_i ; \theta\right)}{q_{i}\left(z_i\right)} \\ (Jensen \quad inequation)\geq& \sum_{i=1}^{m} \sum_{z_i=1}^k q_{i}\left(z_i\right) \log \frac{p\left(x_i, z_i ; \theta\right)}{q_{i}\left(z_i\right)} \end{aligned}$
在 $\frac{p\left(x_i, z_i ; \theta\right)}{q_{i}\left(z_i\right)}=c,\forall i\quad$ 时，等号可以取到。

E-step

由于 $\frac{p\left(x_i, z_i ; \theta\right)}{q_{i}\left(z_i\right)}=c,\quad \sum_{z_i=1}^k q_{i}\left(z_i\right)=1$
可得(更新了 $k\times m$ 个参数)
$\begin{aligned} q_{i}\left(z_i\right) &=\frac{p\left(x_i, z_i ; \theta\right)}{\sum_{z_i} p\left(x_i, z_i ; \theta\right)} \\ &=\frac{p\left(x_i, z_i; \theta\right)}{p\left(x_i ; \theta\right)} \\ &=p\left(z_i \mid x_i ; \theta\right) \end{aligned}$

M-step

将更新的 $q_{i}\left(z_i\right)$ 带入 $\sum_{i=1}^{m} \sum_{z_i} q_{i}\left(z_i\right) \log \frac{p\left(x_i, z_i ; \theta\right)}{q_{i}\left(z_i\right)}$ 在最大化该式的过程中更新参数 $\theta$ （若为GMM模型， $\theta$ 则包含 $\mu_j,\Sigma_j,\pi_j$ ）。
$\begin{aligned} &\sum_{i=1}^{m} \sum_{z_i=1}^k q_{i}(z_i)\log p\left(x_i, z_i ; \theta\right)\\ =&\sum_{i=1}^{m} \sum_{z_i=1}^k q_{i}(z_i)\log p\left(x_i| z_i ; \theta\right)p(z_i ; \theta)\\ =&\sum_{i=1}^{m} \sum_{z_i=1}^k q_{i}(z_i)\log p\left(x_i| z_i ; \theta\right)+ q_{i}(z_i)\log p(z_i ; \theta) \end{aligned}$

M-step 中的GMM

$\begin{aligned} &\sum_{i=1}^{m} \sum_{z_i} q_{i}(z_i)\log p\left(x_i, z_i ; \theta\right)\\ =&\sum_{i=1}^{m} \sum_{z_i} q_{i}(z_i)\log p\left(x_i| z_i ; \theta\right)+ \sum_{i=1}^{m} \sum_{z_i}q_{i}(z_i)\log p(z_i ; \theta) \end{aligned}$
注意到，在GMM模型中，加号左边的参数只有 $\mu_j,\Sigma_j$ ，加号右边的参数只有 $\pi_j$ ，可以分别最大化求解：
$\begin{aligned} (\mu_j,\Sigma_j)=&\argmax\sum_{i=1}^{m} \sum_{z_i=1}^k q_{i}(z_i)\log p\left(x_i| z_i ; \theta\right)\\ \pi_j=&\argmax\sum_{i=1}^{m} \sum_{z_i=1}^k q_{i}(z_i)\log p(z_i ; \theta) \end{aligned}$
第一个式子对 $\mu_j,\Sigma_j$ 分别求偏导，令导函数为0，可得：

$\begin{aligned} \mu_j=&\frac{\sum_{i=1}^{m}q_{i}(z_j)x_i}{\sum_{i=1}^{m}q_{i}(z_j)}\\ \Sigma_j=&\frac{\sum_{i=1}^{m}q_{i}(z_j)\left(x_{i}-\mu_{j}\right)\left(x_{i}-\mu_{j}\right)^{T}}{\sum_{i=1}^{m}q_{i}(z_j)} \end{aligned}$
第二个式子 $p(z_i ; \theta)$ 求和为0的条件（ $\ge 0$ 的条件，由于对数的定义域即大于零，可省略）,用拉格朗日乘子法，再求偏导
$L=\sum_{i=1}^{m} \sum_{z_i=1}^k q_{i}(z_i)\log \pi_{z_i}+\beta(\sum_{z_i=1}^k \pi_{z_i}-1 )$
可得
$\frac{\partial L}{\partial \pi_{z_i}}=\sum_{i=1}^{m}\frac{q_{i}(z_i)}{\pi_{z_i}}+\beta\quad\rightarrow\beta\pi_{z_i}=-\sum_{i=1}^{m}q_{i}(z_i)\quad\rightarrow\beta=-m\\ \pi_{z_i}=\frac{1}{m}\sum_{i=1}^{m}q_{i}(z_i)$

步骤

交替更新，坐标上升的过程。
E-step： $q_{new}(Z) =p_{\theta_{old}}(Z \mid X)$
M-step:
$\theta_{new}= \argmax_{\theta} \sum q(Z) \log \frac{p_{\theta}(X, Z)}{q(Z)}$

对于多个样本 $(X_1,Z_1),(X_2,Z_2),\dots,(X_n,Z_n)$ ,时，
$\begin{aligned} \sum_i^n \log p_{\theta}(X) =\sum_i^n\left( \sum_j^K q(Z) \log \frac{p_{\theta}(X, Z)}{q(Z)}+D_{\mathrm{kl}}\left(Q(Z) \| P_{\theta}(Z \mid X)\right)\right) \end{aligned}$

E-step：用 $p_{\theta_{old}}(Z_i=j \mid X_i)$ 更新 $q_{new}(Z_i=j)$
$q_{new}(Z_i=j) =p_{\theta_{old}}(Z_i=j \mid X_i)=\frac{p_{\theta_{old}}(X_i|Z_i=j)\pi_j}{\sum_j p_{\theta_{old}}(X_i|Z_i=j)\pi_j}$
M-step:更新 $\theta_j,\pi_j$
$\theta_{new}= \argmax_{\theta} \sum_i \sum_j q_{new}(Z_i=j) \log \frac{p_{\theta}(X, Z_i=j)}{q_{new}(Z_i=j)}\\ = \argmax_{\theta} \sum_i \sum_j q_{new}(Z_i=j) \log \frac{p_{\theta_{old}}(X_i|Z_i=j)\pi_j}{q_{new}(Z_i=j)}$

KL散度角度的EM算法

EM算法的目标是最大化 $E_X(\log p_{\theta}(X))$ ，引入潜变量 $Z$ 可将式子写成
$\max _{\theta} E_{X}\left\{\log p_{\theta}(X)\right\}=\max _{\theta}\left\{\iint p_{\theta_{0}}(X) q(Z) \log p_{\theta}(X) d Z d X\right\}$
理想状态下， $\theta$ 的最佳选择 $\theta_{0}$ ，从而可得 $\max _{\theta} E_{X}\left\{\log p_{\theta}(X)\right\}=E_{X}\left\{\log p_{\theta_{0}}(X)\right\}$ ，等号右边可以写成
$\begin{aligned} E_{X}\left\{\log p_{\theta_{0}}(X)\right\} &=\int p_{\theta_{0}}(X) \log p_{\theta_{0}}(X) d X \\ &=\iint p_{\theta_{0}}(X) p_{\theta_{0}}(Z \mid X) d Z \log p_{\theta_{0}}(X) d X \\ &=\iint p_{\theta_{0}}(X) p_{\theta_{0}}(Z \mid X) \log p_{\theta_{0}}(X) d Z d X \end{aligned}$
可以看出 $q (Z)$ 的最佳替换是 $p_{\theta_{0}}(Z \mid X)$ 。
对于最大化的目标 $E_X(\log p_{\theta}(X))$ ，引入 $p_{\theta_{0}}(Z \mid X)$ ，
$\begin{aligned} & E_{X}\left\{\log p_{\theta}(X)\right\} \\ =& E_{X}\left\{\int q(Z \mid X) \log p_{\theta}(X) d Z\right\} \quad\left(\int q(Z \mid X) d Z=1\right) \\ =& E_{X}\left\{\int q(Z \mid X) \log \frac{p_{\theta}(X, Z)}{p_{\theta}(Z \mid X)} d Z\right\}\left(p_{\theta}(Z \mid X)=\frac{p_{\theta}(X, Z)}{p_{\theta}(X)}\right) \\ =& E_{X}\left\{\int q(Z \mid X) \log \frac{p_{\theta}(X, Z) / q(Z \mid X)}{p_{\theta}(Z \mid X) / q(Z \mid X)} d Z\right\} \\ =& E_{X}\left\{\int q(Z \mid X) \log \frac{p_{\theta}(X, Z)}{q(Z \mid X)} d Z-\int q(Z \mid X) \log \frac{p_{\theta}(Z \mid X)}{q(Z \mid X)} d Z\right\} \\ =& E_{X}\left\{\int q(Z \mid X) \log \frac{p_{\theta}(X, Z)}{q(Z \mid X)} d Z+D_{\mathrm{kl}}\left(Q(Z \mid X) \| P_{\theta}(Z \mid X)\right\}\right. \end{aligned}$
给定 $\theta_{\text {old }}$ ，E-Step实际做的事情是用 $\mid X)$ 替代 $P_{\theta}(Z \mid X)$ ，即在KL散度意义下，用 $\mid X)$ 逼近 $P_{\theta}(Z \mid X)$ 。
在理想状态下
在这里插入图片描述
EM算法是一个交替更新的过程，先更新红色部分，再更新蓝色的部分。在更新蓝色部分时，对数中的分母不含需要最大化的参数，可忽略，从而M-step从KL散度看，如下，M-step也是一个KL散度逼近的问题。
$\begin{aligned} & \underset{\theta}{\operatorname{argmax}} E_{X}\left\{\int p_{\theta_{\text {old }}}(Z \mid X) \log p_{\theta}(X \mid Z) p_{\theta}(Z) d Z\right\} \\ =& \underset{\theta}{\operatorname{argmax}} E_{X}\left\{\int q_{\text {new }}(Z \mid X) \log \frac{p_{\theta}(X \mid Z) p_{\theta}(Z)}{p_{\theta_{0}}(X) q_{\text {new }}(Z \mid X)} d Z\right\} \\ =& \underset{\theta}{\operatorname{argmax}}\left\{\int p_{\theta_{0}}(X) q_{\text {new }}(Z \mid X) \log \frac{p_{\theta}(X, Z)}{p_{\theta_{0}}(X) q_{\text {new }}(Z \mid X)} d Z d X\right\} \\ =& \underset{\theta}{\operatorname{argmin}} D_{\mathrm{kl}}\left\{Q_{\text {new }}(Z \mid X) P_{\theta_{0}}(X) \| P_{\theta}(X, Z)\right\} \end{aligned}$

总结

E-step是一个无约束的优化问题，
$Q_{\text {new }}(Z \mid X)=\underset{Q(Z \mid X)}{\operatorname{argmin}} E_{X}\left[D_{\mathrm{kl}}\left(Q(Z \mid X) \| P_{\theta \text { old }}(Z \mid X)\right)\right]$
给定 $\theta^{\text {old }}$ ，直接令 $\mid X)=P_{\theta}(Z \mid X)$ 即可。
M-step是一个有约束的优化问题。
$P_{\theta^{\text {new }}}(X \mid Z)$ 和 $P_{\theta^{\text {new }}}(Z)$ 均为事先确定的分布簇，如 $G M M$ 中前者为正态分布，后者为多项分布。所以这里是在优化分布，使得这两个分布的成绩和 $\mid X) P_{\theta_{0}}(X)$ 的分布在KL散度意义下很接近。
$\begin{array}{l} P_{\theta^{\text {new }}}(X \mid Z) P_{\theta^{\text {new }}}(Z) \\ =\underset{P_{\theta}(X \mid Z) P_{\theta}(Z) \in \mathcal{F}_{\theta}}{\operatorname{argmin}} D_{\mathrm{kl}}\left\{Q_{\text {new }}(Z \mid X) P_{\theta_{0}}(X) \| P_{\theta}(X \mid Z) P_{\theta}(Z)\right\} \end{array}$