k-means获取最佳k值：手肘法与轮廓系数法

最新推荐文章于 2025-05-09 00:00:30 发布

东木月

最新推荐文章于 2025-05-09 00:00:30 发布

阅读量1.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习数据分析文章标签： kmeans 聚类机器学习

本文链接：https://blog.youkuaiyun.com/lm_is_dc/article/details/130536652

数据分析同时被 2 个专栏收录

57 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

机器学习

38 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了确定k-means聚类中最佳k值的两种方法：手肘法和轮廓系数法。通过计算误差平方和（SSE）和轮廓系数，分析得出在给定数据集上，k=11时达到最优聚类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、手肘法

获取最佳的k值
1、手肘法的核心指标是SSE(sum of the squared errors，误差平方和)，
在这里插入图片描述

其中，Ci是第i个簇，p是Ci中的样本点，mi是Ci的质心（Ci中所有样本的均值），SSE是所有样本的聚类误差，代表了聚类效果的好坏。
手肘法的核心思想是：随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，
那么误差平方和SSE自然会逐渐变小。并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，
故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，
所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，
 而这个肘部对应的k值就是数据的真实聚类数。
 当然，这也是该方法被称为手肘法的原因。

代码：

from sklearn.cluster import KMeans
from matplotlib

了解本专栏

超级会员免费看