Day17 常见的聚类算法

常见聚类算法介绍与分析

最新推荐文章于 2025-12-06 23:31:17 发布

原创

最新推荐文章于 2025-12-06 23:31:17 发布 · 974 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能

@浙大疏锦行

知识点

聚类的指标
聚类常见算法：kmeans聚类、dbscan聚类、层次聚类
三种算法对应的流程

聚类的指标：

轮廓系数：越接近1越好，代表样本与所属簇内其他样本很近，但与其他簇很远。
CH指数（簇间分散度与簇内分散度之比）：值越大越好，用于评估簇的分离度和紧凑度，值越大表示簇间分离度越高，簇内紧凑度越高，聚类效果越好。
DB指数（类内距离与类间距离的比值）：越接近0越好，

KMeans 聚类
基于距离的聚类算法，需要预先指定聚类个数，即 k。其核心步骤如下：

随机选择 k 个样本点作为初始质心（簇中心）。
计算每个样本点到各个质心的距离，将样本点分配到距离最近的质心所在的簇。
更新每个簇的质心为该簇内所有样本点的均值。
重复步骤 2 和 3，直到质心不再变化或达到最大迭代次数为止。在迭代过程中，质心的变化会逐渐减小，当变化量小于某个预设的阈值时，也可以停止迭代，以提高效率。

确定簇数的方法：肘部法
肘部法（Elbow Method）是一种常用的确定 k 值的方法。
原理：通过计算不同 k 值下的簇内平方和（Within-Cluster Sum of Squares, WCSS），绘制 k 与 WCSS 的关系图。其中，WCSS 是每个样本点与其所属簇质心的欧式距离的平方和，它反映了簇内样本的紧密程度，WCSS 越小，说明簇内样本越集中。
选择标准：在图中找到 “肘部” 点，即 WCSS 下降速率明显减缓的 k 值，通常认为是最佳簇数。这是因为增加 k 值带来的收益（WCSS 减少）在该点后变得不显著。不过，肘部法有时可能不够明确，需要结合实际业务场景和数据特点进行判断。

KMeans 算法的优缺点

优点

简单高效：算法实现简单，计算速度快，时间复杂度较低，适合处理大规模数据集，在数据量较大时依然能保持较好的性能。
适用性强：对球形或紧凑的簇效果较好，适用于特征空间中簇分布较为均匀的数据，在很多实际应用场景中都能得到不错的聚类结果。
易于解释：聚类结果直观，簇中心具有明确的物理意义，能够帮助人们理解数据的分布特征。

缺点

需预先指定 k 值：对簇数量 k 的选择敏感，不合适的 k 会导致聚类效果较差，而在实际应用中，往往很难准

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。