K-means实验原理
k-means算法是基于原型的聚类算法。给定聚类簇数k后,k-means算法把数据样本划分到k个簇中,使得组内平方和(within-cluster sum of squares)最小。直观来看,该式衡量了簇内样本围绕簇均值向量的紧密程度,越小则簇内样本相似程度越高。
要找到最小的簇划分需要考察所有可能的簇划分,这是一个NP难问题。k-means算法采取了贪心策略,通过迭代优化来近似求解。K-means算法首先选择k个样本作为初始均值向量,每次迭代都根据样本到均值向量的距离更新簇划分,再用新的簇划分更新均值向量,直到均值向量不再改变。
k-means算法需要手动选择一个超参数k,选取不同的初始均值向量也可能会得到不同的聚类结果。
实验内容
编写k-means代码,使用iris(鸢尾花)数据集的最后两维特征(iris_2features.txt)进行聚类实验。
尝试使用不同的聚类簇数(k=1, 2, 3, 4, 5),随机选择多组初始均值向量进行实验。计算聚类簇数k=3时的Rand指数,计算k=1, 2, 3, 4, 5时的DB指数,并可视化展示聚类结果。
代码如下
#导入相关库
from sklearn.cluster import KMeans
from sklearn import metrics
import matplotlib.pyplot as plt
import numpy as np
import csv
#读取数据集
target2num = {
'Iris-setosa':0,
'Iris-versicolor':1,
'Iris-virginica':2}
with open('iris_2features.txt') as csvfile