斯坦福公开课Machine Learning笔记(十)--Mixtures of Gaussians and EM algorithm

最新推荐文章于 2025-09-10 18:08:14 发布

beichao001

最新推荐文章于 2025-09-10 18:08:14 发布

阅读量296

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.youkuaiyun.com/beichao001/article/details/52419113

机器学习专栏收录该内容

7 篇文章

订阅专栏

本文深入探讨了EM算法在高斯混合模型及朴素贝叶斯模型中的应用，并详细推导了算法的E步和M步，同时提供了算法的具体实现过程。

斯坦福公开课Machine Learning笔记(十)–Mixtures of Gaussians and EM algorithm

这系列笔记其实已经手写好, 现在一次性发上来, 主要是怕丢. 内容以Andrew Ng的讲义为主,主要以公式推导与理解为主,引入和介绍省略.对于最后的Reinforcement Learning部分, 由于没有讲义以及对其实在不熟悉, 就没有笔记了(主要还是因为没有讲义).

之前的训练集都是有标记的,k-means是公开课中第一个无标记的算法,其基本思想也很好理解.而这课的EM算法应用很多,先假设了隐变量,其公式推导还是需要慢慢琢磨.

先以高斯混合模型为例:
有隐变量z, $x^{(i)}和z^{(i)}$ 有以下联合分布:

$P(x^{(i)},z^{(i)})=P(x^{(i)}|z^{(i)})P(z^{(i)})$

$\therefore z^{(i)} \text{~} Multionial(\phi) \space(\phi_j\geq0,\sum_j{\phi_j}=1)$

$\therefore x^{(i)}|z^{(i)}=j \space \text{~}N(\mu_j,\Sigma_j)$

如果知道 $z^{(i)}$

$l(\theta,\mu,\Sigma)=\sum_{i=1}^m{\log{P(x^{(i)},z^{(i)};\phi,\mu,\Sigma)}}$

$\therefore \phi_j=\frac{1}{m}\sum_{i=1}^m{1\{z^{(i)}=j\}}$

$\mu_j=\frac{\sum_{i=1}^m{1\{z^{(i)}=j\}x^{(i)}}}{\sum_{i=1}^m{1\{z^{(i)}=j\}}}$

$z^{(i)}\in \{0,1\}$

$\therefore EM$ 算法:
Repeat{
E-step:(guess value of $z^{(i)}$ s)
$\begin{align} W^{(i)}_j:&=P(z^{(i)}=j|x^{(i)};\phi,\mu,\Sigma)\\ &=\frac{P(x^{(i)}|z^{(i)}=j)P(z^{(i)}=j)}{\sum_{l=1}^k{P(x^{(i)}|z^{(i)}=l;\mu,\Sigma)P(z^{(i)}=l;\phi)}}\\ &=\frac{\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j))\times \phi_j}{\sum_{l=1}^k{\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(x^{(i)}-\mu_l)^T\Sigma_j^{-1}(x^{(i)}-\mu_l)\phi_l}}\\ \end{align}$

M-step:(update the parameters)

ϕ j : = 1 m \sum i = 1 m W (i) j

$\phi_j:=\frac{1}{m}\sum_{i=1}^m{W_j^{(i)}}$

μ j : = \sum m i = 1 W ( i ) j x ( i ) \sum m i = 1 W ( i ) j

$\mu_j:=\frac{\sum_{i=1}^m{W_j^{(i)}x^{(i)}}}{\sum_{i=1}^m{W_j^{(i)}}}$

Σ j : = \sum m i = 1 W ( i ) j ( x ( i ) - μ j ) ( x ( i ) - μ j ) T \sum m i = 1 W ( i ) j

$\Sigma_j:=\frac{\sum_{i=1}^m{W_j^{(i)}(x^{(i)}-\mu_j)(x^{(i)}-\mu_j)^T}}{\sum_{i=1}^m{W_j^{(i)}}}$
}
以上只是EM的一个特例,高斯模型的一个例子.现在来推导一下EM算法:
先介绍下Jensen不等式:
f是凸函数(

f′′≥0 $f^{''}\geq0$ )

$E[f(x)]\leq f(E[x])$

当且仅当 $x=E[x],E[f(x)]=f(E[x]),此时P=1$
如果 $f^{''}\leq0$

$E[f(x)]\geq f(E[x])$

$\therefore$ EM:

max θ \sum i log P (x (i); θ) = \sum i log \sum z (i) P (x (i), z (i); θ) = \sum i log \sum z (i) Q i (z (i)) P ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) ) (Q i (z (i) \geq 0, \sum z (i) Q i (z (i) = 1) = \sum i log E [P ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )] (z (i) ~ Q i) \geq \sum i E [P ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )] = \sum i \sum z (i) Q i (z (i)) log P ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )

$\begin{align} \max_\theta{\sum_i{\log{P(x^{(i)};\theta)}}}&=\sum_i{\log{\sum_{z^{(i)}}{P(x^{(i)},z^{(i)};\theta)}}}\\ &=\sum_i{\log{\sum_{z^{(i)}}Q_i(z^{(i)})\frac{P(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}}}(Q_i(z^{(i)}\geq0,\sum_{z^{(i)}}Q_i(z^{(i)}=1)\\ &=\sum_i{\log{E[\frac{P(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}]}}(z^{(i)}\text{~}Q_i)\\ &\geq\sum_i{E[\frac{P(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}]}\\ &=\sum_i{\sum_{z^{(i)}}{Q_i(z^{(i)})\log{\frac{P(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}}}}\\ \end{align}$

∴ l (θ) \geq \sum i \sum z (i) Q i (z (i)) log P ( x ( i ) , z ( i ) ; θ ) Q i ( z ( i ) )

$\therefore l(\theta)\geq\sum_i{\sum_{z^{(i)}}{Q_i(z^{(i)})\log{\frac{P(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}}}}$
根据Jensen不等式的取等号条件,我们想要的是

P(x(i),z(i);θ)Qi(z(i))=c $\frac{P(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}=c$ 为常量.又由于

∑z(i)Qi(z(i))=1 $\sum_{z^{(i)}}{Q_i(z^{(i)})}=1$ ,所以

P(x(i),z(i);θ)=c $P(x^{(i)},z^{(i)};\theta)=c$ ,所以Q的分布就是z的后验概率.

$\therefore Q_i(z^{(i)})=\frac{P(x^{(i)},z^{(i)};\theta)}{\sum_{z^{(i)}}{P(x^{(i)},z^{(i)};\theta)}}=\frac{P(x^{(i)},z^{(i)};\theta)}{P(x^{(i)};\theta)}=P(z^{(i)}|x^{(i)};\theta)$

$\therefore E-step:$

$Set \space Q_i(z^{(i)})=P(z^{(i)}|x^{(i)};\theta)$

$M-step:$

$\theta:=\arg\max_{\theta}{\sum_i{\sum_{z^{(i)}}{Q_i(z^{(i)})\log{\frac{P(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}}}}}$

从另一个角度来看:
define:
$J(\theta,Q)=\sum_i{\sum_{z^{(i)}}{Q_i(z^{(i)})\log{\frac{P(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}}}} \space(l(\theta\geq J(\theta,Q)))$
$E-step:$ 固定 $\theta$ ,maximize Q
$M-step:$ 固定Q, maximize $\theta$

回到高斯混合模型中:
$E-step:$

W (i) j = Q i (z (i) = j) = P (z (i) = j | x (i); ϕ, μ, Σ) = P ( x ( i ) | z ( i ) = j ) P ( z ( i ) = j ) \sum k l = 1 P ( x ( i ) | z ( i ) = l ; μ , Σ ) P ( z ( i ) = l ; ϕ )

$\begin{align} W_j^{(i)}=Q_i(z^{(i)}=j)&=P(z^{(i)}=j|x^{(i)};\phi,\mu,\Sigma)\\ &=\frac{P(x^{(i)}|z^{(i)}=j)P(z^{(i)}=j)}{\sum_{l=1}^k{P(x^{(i)}|z^{(i)}=l;\mu,\Sigma)P(z^{(i)}=l;\phi)}}\\ \end{align}$

$M-step:$

max ϕ, μ, Σ \sum i \sum z (i) Q i (z (i)) log P ( x ( i ) , z ( i ) ; ϕ , μ , Σ ) q i ( z ( i ) ) = \sum i = 1 m \sum j = 1 k W (i) j log P ( x ( i ) | z ( i ) = j ; μ , Σ ) P ( z ( i ) = j ; ϕ ) Q i ( z ( i ) = j ) = \sum i = 1 m \sum j = 1 k W (i) j log 1 ( 2 π ) n 2 | Σ | 1 2 e x p ( - 1 2 ( x ( i ) - μ j ) T Σ - 1 j ( x ( i ) - μ j ) ) \times ϕ j W ( i ) j

$\begin{align} \max_{\phi,\mu,\Sigma}{\sum_i{\sum_{z^{(i)}}Q_i(z^{(i)})\log{\frac{P(x^{(i)},z^{(i)};\phi,\mu,\Sigma)}{q_i(z^{(i)})}}}} &=\sum_{i=1}^m{\sum_{j=1}^k{W_j^{(i)}\log{\frac{P(x^{(i)}|z^{(i)}=j;\mu,\Sigma)P(z^{(i)}=j;\phi)}{Q_i(z^{(i)}=j)}}}}\\ &=\sum_{i=1}^m{\sum_{j=1}^k{W_j^{(i)}\log{\frac{\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j))\times \phi_j}{W_j^{(i)}}}}}\\ \end{align}$
然后分别对

ϕ,μ,Σ $\phi,\mu,\Sigma$ 求导求解.

Mixtures of Naive Bayes Model
当我们要对文本进行分类,但是不知道标签,那么使用NB对文本进行分类是文本聚类问题.
这里有m个文本,每个文本表示成n维向量. $x_i\in\{0,1\}$ 代表词是否出现在文本中.
这里隐变量 $z\in\{0,1\} \space Bernoulli(\phi)$