Python实现K-means 聚类_python实现kmeans聚类-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_51705589/article/details/128522626

K-means实验原理

k-means算法是基于原型的聚类算法。给定聚类簇数k后，k-means算法把数据样本划分到k个簇中，使得组内平方和（within-cluster sum of squares）最小。直观来看，该式衡量了簇内样本围绕簇均值向量的紧密程度，越小则簇内样本相似程度越高。

要找到最小的簇划分需要考察所有可能的簇划分，这是一个NP难问题。k-means算法采取了贪心策略，通过迭代优化来近似求解。K-means算法首先选择k个样本作为初始均值向量，每次迭代都根据样本到均值向量的距离更新簇划分，再用新的簇划分更新均值向量，直到均值向量不再改变。

k-means算法需要手动选择一个超参数k，选取不同的初始均值向量也可能会得到不同的聚类结果。

实验内容

编写k-means代码，使用iris（鸢尾花）数据集的最后两维特征(iris_2features.txt)进行聚类实验。
尝试使用不同的聚类簇数（k=1, 2, 3, 4, 5），随机选择多组初始均值向量进行实验。计算聚类簇数k=3时的Rand指数，计算k=1, 2, 3, 4, 5时的DB指数，并可视化展示聚类结果。

代码如下

#导入相关库
from sklearn.cluster import KMeans
from sklearn import metrics
import matplotlib.pyplot as plt
import numpy as np
import csv

#读取数据集
target2num = {
   'Iris-setosa':0, 
              'Iris-versicolor':1, 
              'Iris-virginica':2}

with open('iris_2features.txt') as csvfile