高斯混分聚类
高斯混合(Mixture-of-Gaussian)聚类采用概率模型来表达聚类原型,我们先大概回忆一下高斯分布的概率密度函数,对于n维样本空间中的随机变量
,如果
服从高斯分布,其概率密度函数为:
我们可以看到其中的高斯分布完全由和
这两个参数确定。为了明确的显示高斯分布与相应参数的依赖关系,将概率密度函数记为
。我们可以定义高斯混合分布为:
上面这个式子就是多个高斯分布的概率密度函数加权求和得到了一个混合概率密度。很明显。
为相应的混合系数。所以我们得到了高斯混合分布的概率密度函数:
所以我们如何使用高斯分布来进行我们的聚类。
前提:样本的生成过程由高斯混合分布给出。首先,根据混合系数定义的先验分布来选择高斯混合成分,就是说我这个样本到底是符合哪个高斯分布,
分别对应k个高斯分布的系数;然后,根据被选择的混合成分的概率密度函数进行采样,从而生成相应的样本。个人理解就是:这些样本要不就符合单个的高斯分布函数,要不就符合混合高斯分布函数,那既然是这样,我们就能通过估计具体的参数来判断样本到底属于什么样的高斯分布,属于相同参数的高斯分布自然聚为一个簇。
如果训练集由上述过程产生,令随机变量