EM算法的推导

最新推荐文章于 2023-12-22 23:15:10 发布

原创最新推荐文章于 2023-12-22 23:15:10 发布 · 496 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#EM算法 #机器学习

机器学习专栏收录该内容

1 篇文章

订阅专栏

算法用途

在统计计算中，最大期望（EM）算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。

如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法或者贝叶斯估计法来估计模型参数。当概率模型含有隐藏变量时，就不能简单地使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法。

符号定义

Y：观测的随机变量数据，
Z：隐藏的随机变量数据
完全数据（complete data）：Y和Z
不完全数据（incomplete data）：Y

问题描述

输入：观测数据 $Y$
求解：模型参数 $\theta$
方法：最大化观测数据的似然函数
$θ * = arg θ max L (θ; Y)$ $\theta^*=\arg_\theta {\max{L(\theta;Y)} }$

其中，似然函数定义为：

L (θ; Y) = log P (Y; θ) = log \sum Z P (Y | Z; θ) \cdot P (Z | θ)

$L(\theta;Y) = \log P(Y;\theta) = \log \sum_{Z}{P(Y|Z;\theta)\cdot P(Z|\theta)}$

困难：上式往往包含对未观测数据及和或者积分的对数，无解析解，不可直接求。

我们的解决方案是：通过迭代，不断优化似然函数 $L(\theta;Y)$ 的下界，来逐步近似极大化 $L(\theta;Y)$ 。这一下界，就是著名的Q函数。

Q函数

Q (θ, θ i) = E Z [log P (Y, Z | θ) | Y, θ i] = \sum Z P (Z | Y, θ i) \cdot log P (Y, Z | θ)

$\begin{align*} Q(\theta, \theta^i) & = E_Z[\log P(Y,Z\ |\ \theta)\ |\ Y, \theta^i]\\ &= \sum_Z{ P(Z\ |\ Y,\theta^i)} \cdot \log P(Y,Z\ |\ \theta) \end{align*}$

Q函数的物理意义为：

完全数据 ${Y, Z}$ 的 对数似然函数 $\log P(Y,Z\ |\ \theta)$ ，关于未观测数据 $Z$ 的在给定观测数据 $Y$ 和当前参数估计 $\theta^i$ 的情况下的 后验概率分布 $P(Z\ |\ Y,\theta^i)$ 的条件期望。

EM算法的核心就在于Q函数的最大化。

极大似然估计的求解方法是，最大化观测变量关于模型参数的似然函数；而在EM方法的试用场景中含有隐藏变量，无法直接最大化观测变量的似然函数，因此我们转而通过迭代来不断优化观测变量似然函数的下界，即包括观测变量和隐藏变量在内的所有变量的似然函数的条件期望。

推导思路一

假设第 $i$ 轮迭代后， $\theta$ 的估计值是 $\theta^i$ 。

我们希望在新的一轮迭代中（即第 $i+1$ 轮），对 $\theta$ 的新的估计能够使得 $Y$ 的似然函数值增加，即

$L (θ; Y) \geq L (θ i; Y)$ $L(\theta;Y) \geq L(\theta^i;Y)$

于是，我们考虑这二者的差：

$L (θ; Y) - L (θ i; Y)$ $L(\theta;Y) - L(\theta^i;Y)$
我们注意到：

观测数据的似然函数为：
$L (θ; Y) = log P (Y | θ)$ $L(\theta;Y) = \log P(Y | \theta)$
完全数据的似然函数为：
$L C (θ; Y, Z) = log P (Y, Z | θ) = log P (Y | θ) \cdot P (Z | Y; θ) = log P (Y | θ) + log P (Z | Y; θ) = L (θ; Y) + log P (Z | Y; θ)$ $\begin{align*} L_C(\theta;Y, Z) &= \log P(Y,Z | \theta) \\ &= \log P(Y | \theta)\cdot P(Z| Y; \theta) \\ &= \log P(Y | \theta) +\log P(Z| Y; \theta) \\ &= L(\theta;Y)+\log P(Z| Y; \theta) \end{align*}$
也就是说：

$L (θ; Y) = L C (θ; Y, Z) - log P (Z | Y; θ)$ $L(\theta;Y) = L_C(\theta;Y, Z) - \log P(Z| Y; \theta)$

所以有

$L (θ) - L (θ i) = (L C (θ) - log P (Z | Y; θ)) - (L C (θ i) - log P (Z | Y; θ i)) = L C (θ) - L C (θ i) + log P ( Z | Y ; θ ) P ( Z | Y ; θ i )$ $\begin{align*} L(\theta) - L(\theta^i) &= (L_C(\theta) - \log P(Z| Y; \theta)) - (L_C(\theta^i) - \log P(Z| Y; \theta^i))\\ &= L_C(\theta) - L_C(\theta^i) + \log \frac{P(Z| Y; \theta)}{P(Z| Y; \theta^i)} \end{align*}$
对该式左右两边取关于Z的期望（ $Y, \theta, i$ 已给定）。左式两项与Z无关，所以结果不变；右式三项均与Z相关。结果如下：

$L (θ) - L (θ i) = \sum Z L C (θ) \cdot P (Z | Y, θ i) - \sum Z L C (θ i) \cdot P (Z | Y, θ i) + \sum Z P (Z | Y, θ i) \cdot log P ( Z | Y ; θ ) P ( Z | Y ; θ i ) \geq \sum Z L C (θ) \cdot P (Z | Y, θ i) - \sum Z L C (θ i) \cdot P (Z | Y, θ i)$ $\begin{align*} L(\theta) - L(\theta^i) &= \sum_Z{L_C(\theta) \cdot P(Z|Y,\theta^i)} - \sum_Z{L_C(\theta^i)\cdot P(Z|Y,\theta^i)} + \sum_Z{ P(Z|Y,\theta^i)\cdot \log \frac{P(Z| Y; \theta)}{P(Z| Y; \theta^i)}}\\ &\geq \sum_Z{L_C(\theta) \cdot P(Z|Y,\theta^i)} - \sum_Z{L_C(\theta^i)\cdot P(Z|Y,\theta^i)} \end{align*}$

不等号成立的原因是右式第三项实质上是两个概率分布 $P(Z| Y; \theta)$ 和 $P(Z| Y; \theta^i)$ 的KL-divergence，不为负。

上式又可转化为

$L (θ) \geq L (θ i) + \sum Z L C (θ) \cdot P (Z | Y, θ i) - \sum Z L C (θ i) \cdot P (Z | Y, θ i)$ $L(\theta) \geq L(\theta^i) +\sum_Z{L_C(\theta) \cdot P(Z|Y,\theta^i)} - \sum_Z{L_C(\theta^i)\cdot P(Z|Y,\theta^i)}$
此时，我们得到了 $L(\theta)$ 的下界，即右式所示。我们将该下界记为函数 $B(\theta, \theta^i)$ 。任何可以使 $B(\theta, \theta^i)$ 增大的 $\theta$ ，也可以使 $L(\theta)$ 增大。为了使 $L(\theta)$ 尽可能地变大，我们选择可以最大化函数 $B(\theta, \theta^i)$ 的 $\theta$ 作为对第 $i+1$ 轮的估计，即：

$θ i + 1 = arg θ max B (θ, θ i) = arg θ max L (θ i) + \sum Z L C (θ) \cdot P (Z | Y, θ i) - \sum Z L C (θ i) \cdot P (Z | Y, θ i)$ $\begin{align*} \theta^{i+1} &= \arg_{\theta} \max B(\theta, \theta^i) \\ &= \arg_{\theta} \max L(\theta^i) +\sum_Z{L_C(\theta) \cdot P(Z|Y,\theta^i)} - \sum_Z{L_C(\theta^i)\cdot P(Z|Y,\theta^i)} \end{align*}$
我们注意到：右式第一项和第三项均为常数，因此，上述问题等价于：

$θ i + 1 = arg θ \sum Z L C (θ) \cdot P (Z | Y, θ i) = arg θ \sum Z P (Z | Y, θ i) log P (Y, Z | θ) = Q (θ, θ i)$ $\begin{align*} \theta^{i+1} &= \arg_{\theta} \sum_Z{L_C(\theta) \cdot P(Z|Y,\theta^i)} \\ &= \arg_{\theta} \sum_Z{P(Z|Y,\theta^i) \log P(Y,Z\ |\ \theta)} \\ &= Q(\theta, \theta^i) \end{align*}$
这一下界就是EM算法中的Q函数：

$Q (θ, θ i) = \sum Z L C (θ) \cdot P (Z | Y, θ i) = \sum Z P (Z | Y, θ i) \cdot log P (Y, Z | θ) = E Z [log P (Y, Z | θ) | Y, θ i]$ $\begin{align*} Q(\theta, \theta^i) &= \sum_Z{L_C(\theta) \cdot P(Z\ |\ Y,\theta^i)} \\ &= \sum_Z{ P(Z\ |\ Y,\theta^i)} \cdot \log P(Y,Z\ |\ \theta)\\ & = E_Z[\log P(Y,Z\ |\ \theta)\ |\ Y, \theta^i] \end{align*}$
推导思路二

同样，假设第 $i$ 轮迭代后， $\theta$ 的估计值是 $\theta^i$ 。

我们希望在新的一轮迭代中（即第 $i+1$ 轮），对 $\theta$ 的新的估计能够使得 $Y$ 的似然函数值增加，即

$L (θ; Y) \geq L (θ i; Y)$ $L(\theta;Y) \geq L(\theta^i;Y)$

于是，我们考虑这二者的差：

$L (θ; Y) - L (θ i; Y) = log P (Y | θ) - log P (Y | θ i) = log \sum Z P (Y, Z | θ) - log P (Y | θ i) = log \sum Z P (Z | Y, θ i) P ( Y , Z | θ ) P ( Z | Y , θ i ) - log P (Y | θ i) \geq \sum Z P (Z | Y, θ i) log P ( Y , Z | θ ) P ( Z | Y , θ i ) - log P (Y | θ i) = \sum Z P (Z | Y, θ i) log P ( Y , Z | θ ) P ( Z | Y , θ i ) - \sum Z P (Z | Y, θ i) log P (Y | θ i) = \sum Z P (Z | Y, θ i) log P ( Y , Z | θ ) P ( Z | Y , θ i ) P ( Y | θ i ) = \sum Z P (Z | Y, θ i) log P ( Y , Z | θ ) P ( Y , Z | θ i )$ $\begin{align*} L(\theta;Y) - L(\theta^i;Y) &= \log P(Y\ |\ \theta) - \log P(Y\ |\ \theta^i)\\ &= \log \sum_Z P(Y,Z\ |\ \theta) - \log P(Y\ |\ \theta^i)\\ &= \log \sum_Z P(Z\ |\ Y,\theta^i)\frac{P(Y,Z\ |\ \theta)}{P(Z\ |\ Y,\theta^i)} - \log P(Y\ |\ \theta^i)\\ &\geq \sum_Z P(Z\ |\ Y,\theta^i)\log\frac{P(Y,Z\ |\ \theta)}{P(Z\ |\ Y,\theta^i)} - \log P(Y\ |\ \theta^i)\\ &= \sum_Z P(Z\ |\ Y,\theta^i)\log\frac{P(Y,Z\ |\ \theta)}{P(Z\ |\ Y,\theta^i)} -\sum_Z P(Z\ |\ Y,\theta^i)\log P(Y\ |\ \theta^i)\\ &= \sum_Z P(Z\ |\ Y,\theta^i)\log\frac{P(Y,Z\ |\ \theta)}{P(Z\ |\ Y,\theta^i)P(Y\ |\ \theta^i)}\\ &= \sum_Z P(Z\ |\ Y,\theta^i)\log\frac{P(Y,Z\ |\ \theta)}{P(Y,Z\ |\ \theta^i)}\\ \end{align*}$
上式不等号是利用了Jensen不等式：

对于凸函数 $f(x)$ ：
$f (\sum λ i x i) \geq \sum λ i f (x i)$ $f\Big(\sum_{\lambda_i}x_i\Big) \geq \sum_{\lambda_i}f\Big(x_i\Big)$
其中 $\lambda_i\geq 0, \sum \lambda_i = 1 .$

而对数函数 $log(\cdot)$ （以 $e$ 为底）为凹函数。

将上式的形式进一步转换可以得到：

$L (θ; Y) = L (θ i; Y) + \sum Z P (Z | Y, θ i) log P ( Y , Z | θ ) P ( Y , Z | θ i ) = L (θ i; Y) + \sum Z P (Z | Y, θ i) log P (Y, Z | θ) - \sum Z P (Z | Y, θ i) P (Y, Z | θ i)$ $\begin{align*} L(\theta;Y) &= L(\theta^i;Y) + \sum_Z P(Z\ |\ Y,\theta^i)\log\frac{P(Y,Z\ |\ \theta)}{P(Y,Z\ |\ \theta^i)}\\ &= L(\theta^i;Y) + \sum_Z P(Z\ |\ Y,\theta^i)\log P(Y,Z\ |\ \theta) - \sum_Z P(Z\ |\ Y,\theta^i) P(Y,Z\ |\ \theta^i)\\ \end{align*}$

此时，我们得到了 $L(\theta)$ 的下界，和第一种推导思路一致。

EM算法框架

至此，我们可以给出EM算法框架如下：

输入：观测数据 Y
设定：模型及其参数 $\theta$ ，以及 $P(Y\ |\ Z)$ 和 $P(Z\ |\ \theta)$
求解：模型参数 $\theta$

(1) 初始化：选择参数初值 $\theta_0$ ，开始迭代

(2) E-step：记 $\theta_i$ 为第 $i$ 次迭代的参数值，则在第 $i+1$ 次迭代的E-step，计算Q函数，即完全数据在当前参数下的条件期望：

$Q (θ, θ i) = E Z [log P (Y, Z | θ) | Y, θ i] = \sum Z P (Z | Y, θ i) \cdot log P (Y, Z | θ)$ $\begin{align*} Q(\theta, \theta^i) & = E_Z[\log P(Y,Z\ |\ \theta)\ |\ Y, \theta^i]\\ &= \sum_Z{ P(Z\ |\ Y,\theta^i)} \cdot \log P(Y,Z\ |\ \theta) \end{align*}$
其中Q函数的计算涉及两项概率分布：

完全数据 ${Y, Z}$ 的 对数似然函数 $\log P(Y,Z\ |\ \theta)$ ：
$log P (Y, Z | θ) = log P (Y | Z) P (Z | θ)$ $\begin{align*} \log P(Y,Z\ |\ \theta) &= \log P(Y\ |\ Z) \ P(Z\ |\ \theta) \end{align*}$
未观测数据 $Z$ 的 后验概率分布 $P(Z\ |\ Y,\theta^i)$ ：
$P (Z | Y, θ i) = P ( Y , Z | θ i ) P ( Y | θ i ) = P ( Y , Z | θ i ) \sum Z ' P ( Y , Z ' | θ i ) = P ( Y | Z ) P ( Z | θ i ) \sum Z ' P ( Y | Z ' ) P ( Z ' | θ i )$ $\begin{align*} P(Z\ |\ Y,\theta^i) = \frac{P(Y,Z\ | \theta^i)}{P(Y\ |\ \theta^i)} =\frac{P(Y,Z\ | \theta^i)}{\sum_{Z'}P(Y,Z'\ |\ \theta^i)} =\frac{P(Y\ |\ Z) \ P(Z\ | \theta^i)}{\sum_{Z'}P(Y\ |\ Z')\ P(Z'\ |\ \theta^i)} \end{align*}$

(3) M-step：求使得上述期望最大的 $\theta$ ，确定第 $i+1$ 次迭代的参数估计值 $\theta_{i+1}$ ：

$θ i + 1 = arg θ max Q (θ, θ i)$ $\theta_{i+1} = \arg_{\theta} \max Q(\theta, \theta^i)$
(4) 重复第2、3步，直到收敛。

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

zhangjunthu

关注关注

0
点赞

踩

1

收藏

觉得还不错? 一键收藏

0
评论

分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫

举报

举报

专栏目录

EM算法的详细数学推导，并在Python中从头开始实现

gongdiwudu的专栏

08-01 2192

在理解 EM 算法时存在一个陷阱。这是相当复杂的。但不要害怕;在这篇博客中，我将通过详细的数学推导和从头开始的 Python 实现来指导您了解 EM 算法。

em算法的Q函数的理解

vssyu的博客

06-20 1550

这个是概率密度。 p(xi∣zi,Θ)p\left(x_{i} \mid z_{i}, \Theta\right)p(xi∣zi,Θ)是来自第ZiZ_{i}Zi个模型下，xix_{i}xi的分布。所以第ZiZ_{i}Zi个模型的参数是：N(μzi,Σzi)\mathcal{N}\left(\mu_{z_{i}}, \Sigma_{z_{i}}\right)N(μzi,Σzi) p(zi∣Θ)p\left(z_{i} \mid \Theta\right)p(zi∣Θ)是给定参数下选第Z.

参与评论您还未登录，请先登录后发表或查看评论

EM算法--三硬币模型的Q函数推导

zhangming0411的博客

07-30 872

观测数据为看到掷出来的硬币正反，正面为1，反面为0 隐藏数据为A硬币掷出来的正反，正面选择硬币B为1，反面选择硬币C为0 完全数据为,因此可得完全数据的对数似然函数为 Q函数为其中等于李航大佬《统计学习方法》中公式（9.5），E步到此结束，M求导和迭代，不在赘述 ...

EM算法——具体推导，Q函数直接用

触动人生的博客

04-13 5898

EM算法原文链接：https://www.cnblogs.com/zdz8207/p/DeepLearning-em-gosimix.html 本文经过一定修改，个人认为原文中存在符号混用情况，对Q函数的角码使用不太清晰，容易晕假设训练集是由m个独立的样本构成。我们的目的是要对概率密度函数进行参数估计。它的似然函数为：然而仅仅凭借似然函数，无法对参数进行求解。因为这里的随机变量...

EM算法Q函数推导过程详解

最新发布

qq_33909788的博客

12-22 1988

在机器学习领域中，EM算法是一种常用的求解隐变量模型参数的方法。在使用EM算法时，我们需要用到一个重要的函数——Q函数，它在求解过程中起着至关重要的作用。然而，很多人在使用EM算法时，并没有深入了解Q函数的推导过程，这也导致了在实践中的一些困惑和误解。因此，本篇文章将详细介绍Q函数的推导过程，以帮助读者更好地理解EM算法的实现原理。

EM算法

zakexu的专栏

04-28 1680

（一）简介 1.概率模型有时既含有观测变量，又含有隐变量，将观测数据以及未观测数据表示如下：那么观测数据的似然函数为：考虑求模型参数的极大似然估计，即： 2.含有隐变量的概率模型参数的极大似然估计没有解析解，只有通过迭代的方法求解；EM（expectation maximization）算法是解决这类问题的一种迭代算法；EM算法的每次迭代有两步：E步求期望，M步

EM算法详细例子+推导.zip_EM_EM 算法推导_EM算法_EM算法公式_campvvb

07-15

EM算法的详细讲解，内附公式，逻辑简单，通俗易懂。

EM算法推导过程及其举例

01-05

EM算法推导过程及其举例

EM算法推导

Dream_xd的博客

03-18 321

EM算法是一种迭代算法，1977年有Dempster等人总结提出，用于含有**隐变量（hidden variable）**的概率模型参数的极大似然估计，或极大后验似然估计。EM算法的每次迭代由两步组成：E步，求期望（Expectation）；M步，求极大（Maximization）。所以这一算法被称为期望极大算法（Expectation Maximization algorithm），简称EM算法...

贝叶斯网络、EM算法推导

ch18328071580的博客

07-07 3626

本章简要的介绍了贝叶斯分类器的拓展：贝叶斯网络和EM算法，并给出了简单的推导。

机器学习（九）——EM算法

嘟嘟伐木工的博客

06-11 524

缺少：推导GMM 通过坐标上升理解EN的过程 1.为什么要用EM算法 2.为什么EM算法中Q函数如此定义，且迭代计算Q函数及其最大？ EM算法的流程： 1 拿到所有的观测样本，根据先验或者喜好先给一个参数估计。 2 根据这个参数估计和样本计算类别分布Q，得到最贴近对数似然函数的下界函数。 3 对下界函数求极值，更新参数分布。 4...

大白话EM算法--从此爱上EM迭代

04-07

本系列讲解EM及GMM相关知识点，让你对ＥＭ整理流程有清晰的认识，从而应用到工作和面试中。目录如下：1.1EM算法之回顾最大似然估计1.2EM算法之回顾贝叶斯估计1.3EM算法之回顾K-means算法1.4EM算法之算法目标引入1.5EM算法之目标函数转换--利用Jensen不等式1.6EM算法之目标函数求解--关于Q(z, θ)的表达1.7EM算法流程1.8EM算法案例1.9EM算法应用之GMM(高斯混合模型)的目标函数表示1.10EM算法应用之GMM(高斯混合模型)的迭代过程1.11EM算法代码之手动实现GMM迭代过程1.12EM算法代码之基于sklearn身高性别数据GMM高斯混合聚类实现

浅谈EM算法的两个理解角度

njustzj001的专栏

03-20 9257

最近在写毕业论文，由于EM算法在我的研究方向中经常用到，所以把相关的资料又拿出来看了一下，有了一些新的理解与感悟。在此总结一下。EM算法即“期望极大算法”。学过机器学习的朋友都知道EM算法分两步：E步求期望，M步求极大。但是期望是求谁的期望，极大是求谁的极大呢？这里面其实有两种解读角度。“通俗”角度通俗角度的话，求极大肯定是求似然函数的极大了，而且一般都是对数似然。我们一般解决模型参数求解问题，都是

EM算法从直观到数学理解

H_P's

09-03 1662

0x00 引言 EM算法是什么？什么是E（Epectation）？什么是M（Maximization）？什么又是公式里面出现的Q函数？这些公式都是怎么推导的？Nature抛硬币的那个图怎么就看不懂嘞？为什么看了那么多文章之后还是不懂？公式的符号怎么又不一样呢？谁谁还说有九层塔？Emmm…interesting 下面，让我们走进科学。 0x10 直观理解现在有一个随机变量数据集DD...

EM算法的理解以及应用

Jipon

01-08 1万+

本文是《统计学方法》第九章自己的笔记，为了更方便的理解，本文对转载的文章内容稍作修改。EM算法的每次迭代由两部分组成：E步，求期望；M步，求极大。所以这一算法称之为期望极大算法，简称EM算法。 EM算法的引入介绍一个使用EM算法的例子：三硬币模型有ABC三枚硬币，单次投掷出现正面的概率分别为π、p、q。利用这三枚硬币进行如下实验： 1、第一次先投掷A，若出现

从最大似然到EM算法浅解

热门推荐

zouxy09的专栏

01-24 41万+

从最大似然到EM算法浅解 zouxy09@qq.com http://blog.youkuaiyun.com/zouxy09 机器学习十大算法之一：EM算法。能评得上十大之一，让人听起来觉得挺NB的。什么是NB啊，我们一般说某个人很NB，是因为他能解决一些别人解决不了的问题。神为什么是神，因为神能做很多人做不了的事。那么EM算法能解决什么问题呢？或者说EM算法是因为什么而来到这个世界

李航统计学习方法EM算法三枚硬币例子Q函数推导

https://github.com/shaofengzeng/

08-29 5502

李航《统计学习方法》中关于EM算法有个抛三枚硬币的例子，例子没有给出Q函数的具体推导，查了很多资料，也没有满意的答案，所以自己推到了一下。哎大牛就是大牛，个人感觉EM算法理解起来不难，但是真正用起来很多问题需要讨论。比如里面涉及很多概率论的知识，条件概率，条件独立，条件期望等等，都值得研究一下

强化学习之Q函数的个人理解

干啥干不行，吃饭第一名

05-21 2万+

首先了解为什么要用强化学习？强化学习是智能体(Agent)与环境之间一种学习和反馈。就像狗撞在玻璃门上两次，第三次它就不会再去跑到玻璃门了。可以通过强化学习来实现经验的快速积累，并针对实时情况作出动态规划(注意强化学习和无监督学习的区别)其中，用的最广泛的就是Q Learning了。Q Learning是由Q函数引出来了的，因此先给出Q函数和V函数的定义。---------------------...

“上帝的算法”——EM

hczheng的专栏

12-12 8807

“上帝的算法”——EM写在前面：最近看完了吴军的《数学之美》，大赞！相比《统计学习方法》、《机器学习》来说，《数学之美》没有那么多的公式理论，全是科普性质的（开拓眼界），其中也不乏一些数学原理的解释，通俗易懂。作为一名数据挖掘爱好者，我觉得这本书是非常值得一读的，可以了解过去机器学习在自然语言处理、搜索广告以及大数据相关领域的发展。书中有一章节，吴军博士命名为：上帝的算法——期望最大化算法，可见作者

深入解析：高斯混合模型与EM算法推导

Jensen不等式是EM算法推导中的关键工具，它说明了一个凸函数的期望值总是大于等于该函数对其期望值的计算，而当函数是严格凸函数时，这个等号仅在期望值是常数时成立。在EM算法中，这个不等式被用来构造一个下界，...