知识点
- 聚类的指标
- 聚类常见算法:kmeans聚类、dbscan聚类、层次聚类
- 三种算法对应的流程
聚类的指标:
- 轮廓系数:越接近1越好,代表样本与所属簇内其他样本很近,但与其他簇很远。
- CH指数(簇间分散度与簇内分散度之比):值越大越好,用于评估簇的分离度和紧凑度,值越大表示簇间分离度越高,簇内紧凑度越高,聚类效果越好。
- DB指数(类内距离与类间距离的比值):越接近0越好,
KMeans 聚类
基于距离的聚类算法,需要预先指定聚类个数,即 k。其核心步骤如下:
- 随机选择 k 个样本点作为初始质心(簇中心)。
- 计算每个样本点到各个质心的距离,将样本点分配到距离最近的质心所在的簇。
- 更新每个簇的质心为该簇内所有样本点的均值。
- 重复步骤 2 和 3,直到质心不再变化或达到最大迭代次数为止。在迭代过程中,质心的变化会逐渐减小,当变化量小于某个预设的阈值时,也可以停止迭代,以提高效率。
确定簇数的方法:肘部法
肘部法(Elbow Method)是一种常用的确定 k 值的方法。
原理:通过计算不同 k 值下的簇内平方和(Within-Cluster Sum of Squares, WCSS),绘制 k 与 WCSS 的关系图。其中,WCSS 是每个样本点与其所属簇质心的欧式距离的平方和,它反映了簇内样本的紧密程度,WCSS 越小,说明簇内样本越集中。
选择标准:在图中找到 “肘部” 点,即 WCSS 下降速率明显减缓的 k 值,通常认为是最佳簇数。这是因为增加 k 值带来的收益(WCSS 减少)在该点后变得不显著。不过,肘部法有时可能不够明确,需要结合实际业务场景和数据特点进行判断。
KMeans 算法的优缺点
优点
- 简单高效:算法实现简单,计算速度快,时间复杂度较低,适合处理大规模数据集,在数据量较大时依然能保持较好的性能。
- 适用性强:对球形或紧凑的簇效果较好,适用于特征空间中簇分布较为均匀的数据,在很多实际应用场景中都能得到不错的聚类结果。
- 易于解释:聚类结果直观,簇中心具有明确的物理意义,能够帮助人们理解数据的分布特征。
缺点
- 需预先指定 k 值:对簇数量 k 的选择敏感,不合适的 k 会导致聚类效果较差,而在实际应用中,往往很难准
常见聚类算法介绍与分析

最低0.47元/天 解锁文章
1193

被折叠的 条评论
为什么被折叠?



