GMM在数据聚类和图像分类中有很重要的应用。
概念理解:
(1)条件概率:
(2)先验概率:在有一定量数据的前提下,我们对参数进行概率估计,事件发生前的预判概率。
(3)后验概率:在最合适的那个参数的前提下,观测数据出现的最大概率。
(4)极大似然估计:找到一组参数使得我们观测到的数据出现的概率最大。
(5)高斯分布:,概率密度函数
。其中N的两个参数第一个代表均值,第二个代表协方差矩阵。
(6)参数估计:已知概率密度函数的形式,而要估计其中的参数的过程。
GMM高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合。
下边对其原理做一个了解。
高斯混合模型(GMM)
设有随机变量X ,则混合高斯模型可以用下式表示:
GMM聚类时分为两步,第一步是随机地在这K 个分量中选一个,每个分量被选中的概率即为混合系数为πk, 可以设定π1=π2=0.5,表示每个分量被选中的概率是0.5,即从中抽出一个点,这个点属于第一类的概率和第二类的概率各占一半。实际应用中事先指定πk 的值是很笨的做法,当问题一般化后,会出现一个问题:当从集合随机选取一个点,并不能确定这个点来自哪里?换言之怎么根据数据自动确定π1 和π2 的值?这就是GMM参数估计的问题。要解决这个问题,可以使用EM算法。通过EM算法,我们可以迭代计算出GMM中的参数: