c均值聚类matlab程序_聚类算法大全

本文介绍了聚类算法在非监督学习中的应用,包括K-means聚类、均值漂移聚类、基于密度的DBSCAN聚类以及高斯混合模型(GMM)的最大期望(EM)聚类。K-means简单快速但对初始质心敏感,而均值漂移聚类能自动识别聚类数,DBSCAN能发现任意形状的簇并抵抗异常点,GMM利用EM算法适应不同形状的簇。每种算法都有其优缺点,适用于不同场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

28a140b282da34cdd199bfa17e86315e.png

聚类是属于非监督学习中的应用。非监督的意思是,我不知道label是什么,有什么。

其实在现实生活,给数据集标label的成本过高,所以大多数数据集是没有label,这也可以知道非监督学习的重要性。

这次给大家分享:K-means聚类、均值漂移聚类、基于密度的聚类、基于分布的聚类(本文用高斯分布做例子)、层次聚类。

1. K-means 聚类

1)过程:

S1. 选定K,K是最终聚类的数目。这需要一定的先验知识,如果没有的话,可能需要随机试再用交叉验证看分类效果哪个更好,就选定那个K。

S2. 选取K个初始的质心,最好不要选太近的质心,因为初始质心的选择虽然不会影响最终结果,但是影响算法运行的时间。

S3. 计算每个样本离这些质心的距离,选择最近的质心并与它结合为一类。

S4. 得到K个类之后,重新计算每一个类中新的质心,重复以上步骤,直至质心不再改变。

2)K-Means的主要优点有:

a. 原理比较简单,实现也是很容易,收敛速度快。

b. 聚类效果较优。

c. 算法的可解释度比较强。

d. 主要需要调参的参数仅仅是簇数k。

3)K-Means的主要缺点有:

a. K值的选取不好把握

b. 只能处理球形的簇

c. 对于不是凸的数据集比较难收敛

d. 如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳。

e. 采用迭代方法,得到的结果只是局部最优。

f. 对噪音和异常点比较的敏感(因为质心的选择基于均值,所以之后也有K-m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值