EM算法
文章目录
一.高斯混合模型(GMM)
1.GMM简介
在之前的聚类算法当中,最为常用的算法是K-means算法,但是经典的聚类算法K-means也有它固有的一些缺陷,比如说它虽然能把未标记的样本进行分类,但是它无法给出某个样本属于该簇的后验概率。
什么是后验概率?本质上说,这个是个条件概率。它与先验概率相对应。先验概率是指:事情还没有发生,根据以往的经验来判断事情发生的概率,比如说,我根据以往的气象现象,推断出大连市降雨的概率。而后验概率则是:事情已经发生了,有多中原因,判断事情的发生是由哪一种原因引起的。
如何解决没有后验概率的问题呢?这个时候,高斯混合模型就应运而生了。
我们假设有这样的应用场景:人有男女两种性别(奇葩的其他咱们姑且不论)。假设我们有一堆样本数据,共10000条,我们不知道哪些是男,哪些是女。但是,如果我们知道男,女两个群体的身高大体不同,男性较高,女性较矮,并且身高分布分别服从于两种不同的正态分布N(μ 1 ,σ 1 )和N(μ 2 ,σ 2 )的分布,试估计μ 1 ,σ 1 ,μ 2 ,σ 2(正态分布还有一个名字:高斯分布。这也是该模型称为高斯混合模型的原因),我们是否有办法把这两组数据进行分离,进而区分出男女呢?(典型的,只有数据,没有标签的场景,属于聚类问题)
如下图所示:这个图的右上角标明了男女分别服从的高斯分布的参数
2.高斯函数的极大似然估计
这个问题对于学过大学本科概率论的童鞋来说,并不难。我们直接把步骤给贴出来:
首先,把概率密度函数列出来:
f ( x ) = 1 2 π δ e − ( x − μ ) 2 2 δ 2 f(x) = \frac{1}{\sqrt{2\pi}\delta}e^-{\frac{(x-\mu)^2}{2\delta^2}} f(x)=2πδ1e−2δ2(x−