一、k均值聚类的简单介绍:假设样本分为c类,每个类均存在一个中心点,通过随机生成c个中心点进行迭代,计算每个样本点到类中心的距离(可以自定义、常用的是欧式距离)
将该样本点归入到最短距离所在的类,重新计算聚类中心,进行下次的重新划分样本,最终类中心不改变时,聚类完成
二、伪代码
三、python代码实现
#!/usr/bin/env python
# coding=utf-8
import numpy as np
import random
import matplotlib.pyplot as plt
#data:numpy.array dataset
#k the number of cluster
def k_means(data,k):
#random generate cluster_center
sample_num=data.shape[0]
center_index=random.sample(range(sample_num),k)
cluster_cen=data[center_index,:]
is_change=1
cat=np.zeros(sample_num)
while is_change:
is_change=0
for i in range(sample_num):
min_distance=100000
min_index=0
for j in range(k):
sub_data=data[i,:]-cluster_cen[j,:]
distance=np.inner(sub_data,sub_data)
if distance<min_distance:
min_distanc
kmeans聚类的简介和代码(python)
最新推荐文章于 2025-05-29 21:28:37 发布