Python实现K-means 聚类

K-means实验原理

k-means算法是基于原型的聚类算法。给定聚类簇数k后,k-means算法把数据样本划分到k个簇中,使得组内平方和(within-cluster sum of squares)最小。直观来看,该式衡量了簇内样本围绕簇均值向量的紧密程度,越小则簇内样本相似程度越高。

要找到最小的簇划分需要考察所有可能的簇划分,这是一个NP难问题。k-means算法采取了贪心策略,通过迭代优化来近似求解。K-means算法首先选择k个样本作为初始均值向量,每次迭代都根据样本到均值向量的距离更新簇划分,再用新的簇划分更新均值向量,直到均值向量不再改变。

k-means算法需要手动选择一个超参数k,选取不同的初始均值向量也可能会得到不同的聚类结果。

实验内容

编写k-means代码,使用iris(鸢尾花)数据集的最后两维特征(iris_2features.txt)进行聚类实验。
尝试使用不同的聚类簇数(k=1, 2, 3, 4, 5),随机选择多组初始均值向量进行实验。计算聚类簇数k=3时的Rand指数,计算k=1, 2, 3, 4, 5时的DB指数,并可视化展示聚类结果。

代码如下

#导入相关库
from sklearn.cluster import KMeans
from sklearn import metrics
import matplotlib.pyplot as plt
import numpy as np
import csv

#读取数据集
target2num = {
   'Iris-setosa':0, 
              'Iris-versicolor':1, 
              'Iris-virginica':2}

with open('iris_2features.txt') as csvfile
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值