文章目录
- 1. K均值聚类算法概述
- 2. k均值聚类算法演示
-
- 2.1 准备工作
- 2.2 生成聚类用的样本数据集
- 2.3 初始化KMeans模型对象,并指定类别数量
- 2.4 用样本数据训练模型
- 2.5 用训练好的模型生成预测结果
- 2.6 输出预测结果
- 2.7 可视化预测结果
- 3. 实战小结
1. K均值聚类算法概述
- K均值聚类算法是一种迭代的、基于中心的聚类方法,将数据点划分为K个簇。算法通过随机选择初始中心点,然后迭代地分配数据点到最近的簇中心,并更新簇中心为簇内所有点的均值,直到收敛或达到最大迭代次数。它简单、高效,适用于大规模数据集。
2. k均值聚类算法演示
2.1 准备工作
下面的代码导入数据处理和绘图库,设置绘图样式为seaborn-v0_8
,格式化NumPy数组输出。
下面两行代码是Python中使用scikit-learn
库进行聚类分析的准备工作:
-
from sklearn.cluster import KMeans
:这行代码从sklearn.cluster
模块中导入KMeans
类。KMeans
是一种常用的聚类算法,用于将数据点分组成K个簇,使得簇内的点尽可能相似,簇间的点尽可能不同。 -
from sklearn.datasets import make_blobs
:这行代码从sklearn.datasets