机器学习实验六：聚类

原创

已于 2023-12-06 14:08:37 修改 · 2k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #聚类 #人工智能

于 2023-12-06 14:04:58 首次发布

系列文章目录

文章目录

系列文章目录
一、实验目的
二、实验原理
- 1.聚类思想
- 2.K 均值聚类算法 K-Means
三、实验内容
四、实验步骤
- 1.训练 K-Means 模型
- 2. 计算聚类纯度、兰德系数和 F1 值，评测聚类效果
总结

一、实验目的

（1）掌握聚类的基本思想；
（2）掌握 K-means 算法，编程实现 K-means；
（3）掌握使用 K-Means 算法对鸢尾花三分类数据集进行聚类操作。

二、实验原理

1.聚类思想

聚类（Clustering）是一种典型的“无监督学习”，是把物理对象或抽象对
象的集合分组为由彼此类似的对象组成的多个类的分析过程。
聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集对
应一个簇。与分类的不同在于，聚类所要求的划分的类别是未知，类别个数也是
未知的。聚类的目标为簇内相似度尽可能高，簇间相似度尽可能低。

2.K 均值聚类算法 K-Means

K-means 是一种常用的基于欧式距离的聚类算法，其认为两个目标的距离越
近，相似度越大。其算法流程如下：在这里插入图片描述

三、实验内容

使用 Python 读取鸢尾花三分类数据集并训练最佳的 K-Means 模型，随后使
用生成的模型将数据进行聚类，并根据使用聚类纯度、兰德系数和 F1 值评测聚
类效果。
由于本次为聚类任务，因此使用聚类相关的混淆矩阵和评价指标。
聚类任务中的混淆矩阵与普通混淆矩阵的意义有一定区别，如下表所示：在这里插入图片描述
其中，TP 为两个同类样本在同一簇的数量；FP 为两个非同类样本在同一簇
的数量；TN 为两个非同类样本分别在两个簇的数量；FN 为两个同类样本分别在
两个簇的数量。
评价指标选择为聚类纯度 Purity、兰德系数 Rand Index（RI）、F1 度量值，
计算公式如下：在这里插入图片描述
代码实现时，可以直接调用 sklearn 库中的 pair_confusion_matrix()获得
混淆矩阵，随后利用公式进行计算。

四、实验步骤

1.训练 K-Means 模型

根据数据，我们已知鸢尾花分3类，因此我们这里的聚类数k=3。利用sklearn
的 KMeans()方法训练 K-Means 模型，并将结果用散点图表示，实现代码如下：

#训练 KMeans 模型
estimator = KMeans(n_clusters=3)
estimator.fit(X) #聚类
#绘制结果散点图
x0 = X[label_pred == 0]
x1 = X[label_pred == 1]
x2 = X[label_pred == 2]
plt.scatter(x0[:, 0