回归与聚类——K-Means（六）

最新推荐文章于 2025-12-20 19:00:14 发布

原创最新推荐文章于 2025-12-20 19:00:14 发布 · 704 阅读

CC 4.0 BY-SA版权

文章标签：

35 篇文章

订阅专栏

本文介绍了无监督学习在数据归纳和分组中的应用，重点讲解了K-means聚类算法及其步骤，包括如何使用sklearn库实现。同时讨论了评估聚类效果的轮廓系数，以及K-means算法的优缺点和适用场景。

在这里插入图片描述

我们可以怎样最有用地对其进行归纳和分组？我们可以怎样以一种压缩格式有效地表征数据？这都是无监督学习的目标，之所以称之为无监督，是因为这是从无标签的数据开始学习的。

一个K-means的聚类效果图：
在这里插入图片描述

1K-means聚类步骤

以一张图来解释效果：
在这里插入图片描述

sklearn.cluster.KMeans(n_clusters=8，init='k-means++’)
- k-means聚类
- n_clusters：开始的聚类中心数量
- init：初始化方法，默认为’k-means ++’
- labels_：默认标记的类型，可以和真实值比较（不是值比较）

1分析

2代码

//取500个用户进行测试
cust = data[:500]
km= KMeans(n_clusters=4)
km.fit(cust)
pre = km.predict(cust)

问题：如何去评估聚类的效果呢？

1轮廓系数
在这里插入图片描述

注：对于每个点i为已聚类数据中的样本，b_i为i到其它族群的所有样本的距离最小值，a_i为i 到本身簇的距离平均值。最终计算出所有的样本点的轮廓系数平均值。

2轮廓系数值分析
在这里插入图片描述

3结论
如果b_i>>a_i：趋近于1效果越好，b_i<<a_i：趋近于-1，效果不好。轮廓系数的值是介
于[-1,1]，越趋近于1代表内聚度和分离度都相对较优。

4轮廓系数API

sklearn.metrics.silhouette_score(X, labels)
- 计算所有样本的平均轮廓系数
- X：特征值
- labels：被聚类标记的目标值

from sklearn.metrics import silhouette_score
silhouette_score(cust, pre)

注意：聚类一般做在分类之前