高斯混合聚类与EM算法

本文详细介绍了高斯混合聚类的概念,通过概率模型表达了聚类原型,并探讨了高斯混合分布与EM算法的联系。文章阐述了如何使用高斯分布进行聚类,解释了EM算法在求解高斯混合模型中的应用,以及EM算法的迭代更新过程。最后,通过实例展示了高斯混合聚类的实现步骤和结果可视化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

高斯混分聚类

高斯混合(Mixture-of-Gaussian)聚类采用概率模型来表达聚类原型,我们先大概回忆一下高斯分布的概率密度函数,对于n维样本空间\Omega中的随机变量\textbf{x},如果\textbf{x}服从高斯分布,其概率密度函数为:

我们可以看到其中的高斯分布完全由\mu\mathbf{\Sigma}这两个参数确定。为了明确的显示高斯分布与相应参数的依赖关系,将概率密度函数记为p(\boldsymbol{x} | \boldsymbol{\mu}, \mathbf{\Sigma})。我们可以定义高斯混合分布为:

上面这个式子就是多个高斯分布的概率密度函数加权求和得到了一个混合概率密度。很明显\sum_{i=1}^{k} \alpha_{i}=1。 \alpha_{i}>0为相应的混合系数。所以我们得到了高斯混合分布的概率密度函数:

p_{\mathcal{M}}(\boldsymbol{x})=\sum_{i=1}^{k} \alpha_{i}\cdot \frac{1}{(2 \pi)^{\frac{n}{2}}|\mathbf{\Sigma}_i|^{\frac{1}{2}}} e^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_i)^{\mathrm{T}} \boldsymbol{\Sigma}_i^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_i)}

所以我们如何使用高斯分布来进行我们的聚类。

前提:样本的生成过程由高斯混合分布给出。首先,根据混合系数\alpha _1,\alpha _2,...,\alpha _k定义的先验分布来选择高斯混合成分,就是说我这个样本到底是符合哪个高斯分布,\alpha _1,\alpha _2,...,\alpha _k分别对应k个高斯分布的系数;然后,根据被选择的混合成分的概率密度函数进行采样,从而生成相应的样本。个人理解就是:这些样本要不就符合单个的高斯分布函数,要不就符合混合高斯分布函数,那既然是这样,我们就能通过估计具体的参数来判断样本到底属于什么样的高斯分布,属于相同参数的高斯分布自然聚为一个簇。

如果训练集D={\textbf{x}_1,\textbf{x}_2,...,\textbf{x}_m}由上述过程产生,令随机变量

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值