高斯模型EM算法推导

最新推荐文章于 2021-11-30 19:12:48 发布

free_lock

最新推荐文章于 2021-11-30 19:12:48 发布

阅读量669

点赞数 1

分类专栏：机器学习算法

本文链接：https://blog.youkuaiyun.com/dudubird90/article/details/49782525

版权

机器学习算法专栏收录该内容

8 篇文章

订阅专栏

本文深入探讨高斯模型的EM算法推导，解析密度估计实质，使用混合高斯函数建模数据集群，并详细计算μ和σ的更新公式，通过最大化后验概率寻找最佳模型参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上文可能花了较多的时间在编辑公式，不过对于它们的由来却没有去深究。
第一眼看到一些结论仍然是很诧异的。虽然和对高斯分布的最大似然估计看起来有几分神似，但是总是觉得不太踏实。此文就是用来梳理推导过程的，在参考文献1中其实有一个手写版的比较详尽的推导，不过仅仅推了 $\mu$ 的计算，而且还有小小的错误。Anyway，先把在Maximization这一步的几个公式再罗列一遍吧

ϕ j = 1 m \sum i = 1 m I {z (i) = j} μ j = \sum m i = 1 I { z ( i ) = j } x ( i ) \sum m i = 1 I { z ( i ) = j } Σ j = \sum m i = 1 I { z ( i ) = j } x ( ( i ) - μ j ) ( x ( i ) - μ j ) T \sum m i = 1 I { z ( i ) = j }

$\phi_j=\frac{1}{m}\sum_{i=1}^{m} I\{z^{(i)}=j\} \\ \mu_j=\frac{\sum_{i=1}^{m} I \{z^{(i)}=j\} x^{(i)}}{\sum_{i=1}^{m}I\{z^{(i)}=j\}}\\ \Sigma_j = \frac{\sum_{i=1}^m I\{z^{(i)}=j\}x(^{(i)}-\mu_j)(x^{(i)}-\mu_j)^T}{\sum_{i=1}^{m} I\{z^{(i)}=j\}}$

$\phi_j$ 代表着 $p(z^{(i)}=j)$ 的概率。这个式子是容易理解的，就是所有的m个样本中，输入标签j的数目除以总的样本数就等于 $\phi_j$ .

密度估计的实质

我们进行密度估计的实质，就是在给定m个D维的样本点， $x_1,...,x_m\in R^D$ ,令所有的 $R^D$ 上概率密度函数的集合表示成 $\mathcal{F}$ ,我们要寻找一个概率密度函数 $f(x)\in \mathcal{F}$ ,它最有可能产生给定的数据。
一种定义这个函数集 $\mathcal{F}$ 的方法就是给所有的函数以相同的数学形式，但是用不同的参数集合 $\theta$ 来区分它们。比如说， $\mathcal{F}$ 中的函数可以是高斯混合函数：

f (x; θ) = \sum k = 1 K ϕ k N (x; μ k, σ k)

$f(x;\theta)=\sum_{k=1}^{K} \phi_k \mathcal{N}(x; \mu_k,\sigma_k)$
由于

f $f$ 是一个密度函数，所以它必须是非负的，同时积分应该是1。所以我们就可以得到：

1 = \int R D f (x; θ) d x = \int R D \sum k = 1 K ϕ k N (x; μ k, σ k) d x = 1

$1=\int_{R^D} f(x;\theta)dx = \int_{R^D}\sum_{k=1}^{K} \phi_k \mathcal{N}(x;\mu_k,\sigma_k)dx=1$
又由于高斯密度函数本身积分为1：

\int R D N (x; μ k, Σ k) d x = 1

$\int_{R^D} \mathcal{N}(x;\mu_k,\Sigma_k)dx=1$
所以可以得到：

\sum k = 1 K ϕ k = 1

$\sum_{k=1}^{K} \phi_k=1$
所以，我们就能得出这样的结论：

ϕ k \geq 0, \sum k = 1 K ϕ k = 1

$\phi_k\ge 0, \sum_{k=1}^{K}\phi_k = 1$
这也检验了，我们设定

ϕk $\phi_k$ 为高斯分量所占的比例是合理的。可以将它称为 mixing probabilities.

推算

使用混合高斯的函数来对cluters进行建模，将每一个cluster分配给一个高斯分量，它的均值靠近cluster的中心，它的标准差就衡量了这个cluster分散的程度。
再来强调一次我们的目的，我们是希望找到这样一个函数，或者说一个模型，通过它最有可能生成我们现在已经获得的数据，所以我们实际上的似然函数最大化就是使得后验概率最大化的过程。

L (x 1, . . ., x m; θ) = \prod n = 1 m f (x n; θ)

$\mathcal{L}(x_1,...,x_m;\theta)=\prod_{n=1}^{m}f(x_n;\theta)$
对于混合高斯函数：

L (x 1, . . ., x m; θ) = \prod n = 1 m \sum k = 1 K ϕ k N (x n; μ k, σ k)

$\mathcal{L(x_1,...,x_m;\theta)}=\prod_{n=1}^{m}\sum_{k=1}^{K}\phi_k \mathcal{N}(x_n; \mu_k,\sigma_k)$
对它进行最大化，就是对它的logarithm的最大化，可以表示为：

l n L (x 1, . . ., x m; θ) = \sum n = 1 m l n \sum k = 1 K ϕ k N (x n; μ k, σ k)

$ln \mathcal{L}(x1,...,x_m;\theta)=\sum_{n=1}^{m}ln \sum_{k=1}^{K}\phi_k \mathcal{N}(x_n; \mu_k, \sigma_k)$

单独对 $\mu$ 求导，为了方便参数仅仅写出 $\mu$ ,可以写成：

l n L (x 1, . . ., x m; μ 1, μ 2, . . . μ K) = \sum n = 1 m l n [\sum k = 1 K p (x n | w k; μ 1, μ 2, . . . μ k) p (w k)]

$ln\ \mathcal{L}(x_1,...,x_m;\mu_1,\mu_2,...\mu_K)=\sum_{n=1}^{m}ln[\sum_{k=1}^{K}p(x_n|w_k;\mu_1,\mu_2,...\mu_k)p(w_k)]$

由于：

\partial \partial x l n f (x) = 1 f ( x ) \partial f ( x ) \partial x

$\frac{\partial}{\partial x} ln f(x)=\frac{1}{f(x)}\frac{\partial f(x)}{\partial x}$
所以可得：

\partial l n L \partial μ i = \sum n = 1 m 1 p ( x n ; μ 1 , . . . , μ K ) \partial \partial μ i \sum j = 1 K p (x n | w j; μ 1, μ 2, . . ., μ K) p (w j) = \sum n = 1 m 1 p ( x n ; μ 1 , . . . , μ K ) p (w i) \partial \partial μ i p (x n | w i; μ 1, μ 2, . . ., μ K)

$\frac{\partial ln \ \mathcal{L}}{\partial \mu_i}=\sum_{n=1}^{m}\frac{1}{p(x_n;\mu_1,...,\mu_K)}\frac{\partial}{\partial \mu_i}\sum_{j=1}^{K}p(x_n|w_j;\mu_1,\mu_2,...,\mu_K)p(w_j) \\=\sum_{n=1}^{m}\frac{1}{p(x_n;\mu_1,...,\mu_K)}p(w_i)\frac{\partial}{\partial \mu_i} p(x_n|w_i;\mu_1,\mu_2,...,\mu_K)$

对于高斯正态分布的求导，满足：

\partial N ( x n ; μ k , σ k ) \partial μ k = N (x n; μ k, σ k) \partial \partial μ k [- 1 2 (| | x n - μ k | | σ k) 2]

$\frac{\partial \mathcal{N}(x_n;\mu_k,\sigma_k)}{\partial \mu_k}=\mathcal{N}(x_n;\mu_k,\sigma_k)\frac{\partial}{\partial \mu_k}[-\frac{1}{2}(\frac{||x_n-\mu_k||}{\sigma_k})^2]$

并且满足：

\partial \partial μ k | | x n - μ k | | 2 = \partial \partial μ k (x T n x n + μ T k μ k - 2 x T n μ k) = 2 (μ k - x n)

$\frac{\partial}{\partial \mu_k}||x_n-\mu_k||^2=\frac{\partial}{\partial \mu_k} (x_n^Tx_n+\mu_k^T\mu_k-2x_n^T\mu_k)=2(\mu_k-x_n)$
(论文2中的公式写错了吧)

所以上面的式子进一步可以写成：

\partial l n L \partial μ i = \sum n = 1 m p ( w i ) p ( x n | w i ; μ 1 , . . . , μ K ) p ( x n ; μ 1 , . . . , μ K ) ( x n - μ k ) σ 2 i

$\frac{\partial ln \ \mathcal{L}}{\partial \mu_i}=\sum_{n=1}^{m} \frac{p(w_i) p(x_n|w_i;\mu_1,...,\mu_K)}{p(x_n;\mu_1,...,\mu_K)}\frac{(x_n-\mu_k)}{\sigma_i^2}$
根据贝叶斯定律，转化成先验概率的形式：

\partial l n L \partial μ i = \sum n = 1 m p (w i | x n; μ 1, μ 2, . . . μ K) ( x n - μ k ) σ 2 i

$\frac{\partial ln \ \mathcal{L}}{\partial \mu_i}=\sum_{n=1}^{m}p(w_i|x_n;\mu_1,\mu_2,...\mu_K) \frac{(x_n-\mu_k)}{\sigma_i^2}$

令偏导数为0，可以得到：

μ^i = \sum m n = 1 P ( w i | x n ; μ 1 , . . . , μ K ) x n \sum m n = 1 p ( w i | x n ; μ 1 , . . . , μ K )

$\hat\mu_i = \frac{\sum_{n=1}^{m} P(w_i|x_n;\mu_1,...,\mu_K)x_n}{\sum_{n=1}^{m} p(w_i|x_n; \mu_1,...,\mu_K)}$

到了这里比较难的就是要继续去推对 $\sigma$ 的微分，为此我试图偷懒从一些文献上找到答案，但是发现大家都很显然的就得到了结果，所以我只能笨笨地自己推了，在参考文献4中貌似有一种更简单的做法。但是当中有个求导的步骤怎么跳过去的我没看懂。

\partial L n L \partial σ 2 = \sum n = 1 m p ( w i ) p ( x n ; σ 2 1 , . . . , σ 2 K ) \partial \partial σ 2 i [p (x n | w i; σ 21, σ 22, . . ., σ 2 K)]

$\frac{\partial Ln\ \mathcal{L}}{\partial \sigma^2}=\sum_{n=1}^{m}\frac{p(w_i)}{p(x_n;\sigma_1^2,...,\sigma_K^2)}\frac{\partial}{\partial \sigma_i^2}[p(x_n|w_i;\sigma_1^2,\sigma_2^2,...,\sigma_K^2)]$
现在就要回到正态分布的函数形式上：

\partial N ( x n ; μ i , σ i ) \partial σ i = \partial \partial σ 2 [1 2 π - - \sqrt σ e x p (- ( x n - μ i ) 2 2 σ 2)] = 1 2 π - - \sqrt σ e x p (- ( x n - μ i ) 2 2 σ 2) \cdot \partial \partial σ 2 (- ( x n - μ i ) 2 2 σ 2) + e x p (- ( x n - μ i ) 2 2 σ 2) \partial \partial σ 2 (1 2 π - - \sqrt σ) = N (x n; μ i, σ i) \cdot ( x n - μ i ) 2 2 σ 4 - e x p (- ( x n - μ i ) 2 2 σ 2) \cdot 1 2 2 π - - \sqrt \cdot 1 σ 3 = N (x n; μ i, σ i) \cdot ( x n - μ i ) 2 2 σ 4 - N (x n; μ i, σ i) \cdot 1 2 σ 2

$\frac{\partial \mathcal{N}(x_n;\mu_i,\sigma_i)}{\partial \sigma_i}=\frac{\partial}{\partial \sigma^2}[\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_n-\mu_i)^2}{2\sigma^2})]\\=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_n-\mu_i)^2}{2\sigma^2})\cdot \frac{\partial}{\partial \sigma^2}(-\frac{(x_n-\mu_i)^2}{2\sigma^2})+exp(-\frac{(x_n-\mu_i)^2}{2\sigma^2})\frac{\partial}{\partial \sigma^2}(\frac{1}{\sqrt{2\pi}\sigma})\\=\mathcal{N}(x_n;\mu_i,\sigma_i)\cdot \frac{(x_n-\mu_i)^2}{2\sigma^4}-exp(-\frac{(x_n-\mu_i)^2}{2\sigma^2})\cdot \frac{1}{2\sqrt{2\pi}}\cdot \frac{1}{\sigma^3}\\= \mathcal{N}(x_n;\mu_i,\sigma_i)\cdot \frac{(x_n-\mu_i)^2}{2\sigma^4}-\mathcal{N}(x_n;\mu_i,\sigma_i)\cdot \frac{1}{2\sigma^2}$

这样，上式子变为：

\partial L n L \partial σ 2 i = \sum n = 1 m p ( w i ) p ( x n ; σ 2 1 , . . . , σ 2 K ) p (x n | w i, σ 21, . . ., σ 2 K) [( x n - μ i ) 2 2 σ 4 i - 1 2 σ 2 i] = \sum n = 1 m p (w i | x n; σ 21, σ 22, . . ., σ 2 K) [( x n - μ i ) 2 2 σ 4 i - 1 2 σ 2 i]

$\frac{\partial Ln\ \mathcal{L}}{\partial \sigma_i^2}=\sum_{n=1}^{m}\frac{p(w_i)}{p(x_n;\sigma_1^2,...,\sigma_K^2)}p(x_n|wi,\sigma_1^2,...,\sigma_K^2)[\frac{(x_n-\mu_i)^2}{2\sigma_i^4}-\frac{1}{2\sigma_i^2}]\\ =\sum_{n=1}^{m}p(w_i|x_n;\sigma_1^2,\sigma_2^2,...,\sigma_K^2)[\frac{(x_n-\mu_i)^2}{2\sigma_i^4}-\frac{1}{2\sigma_i^2}]$

令偏微分为0，求得结果为：