K-means算法流程:
- 随机选k个样本作为初始聚类中心
- 计算数据集中每个样本到k个聚类中心距离,并将其分配到距离最小的聚类中心
- 对于每个聚类,重新计算中心
- 回到2,至得到局部最优解
python代码:
import random
import numpy as np
import matplotlib.pyplot as plt
plt.ion()#开启交互,matplotlib默认阻塞模式,直到调用plt.show()才会显示
def getDistance(point1,point2): #求距离
return ((point1[0]-point2[0])**2+(point1[1]-point2[1])**2)**0.5
def cluster(): #根据中心聚类
distance=np.zeros((N,k))
for i in range(N):
minimum=9999
for j in range(k):
distance[i,j]=getDistance(point[i],centers[j])
for j in range(k):
if distance[i,j]<minimum:
minimum=distance[i,j]
center[i]=centers[j]
def getE(): #求误差平方和
sum_=0
for i in range(k):
for j in range(N):
if np.all(center[j]==centers[i]):
sum_+=getDistance(point[j],centers[i])**2
return sum_
def getNewCenters():#获得新的中心点
for i in range(k):
count=0
temp_x=0
temp_y=0
for j in range(N):
if np.all(center[j]==centers[i]):
count+=1
temp_x+=point[j,0]
temp_y+=point[j,1]
temp_x/=count;
temp_y/=count;
centers[i]=np.array([temp_x,temp_y])
def show(): #展示
for i in range(k):
for j in range(N):
if np.all(center[j]==centers[i]):
plt.scatter(point[j,0],point[j,1],c=cnames[i],s=10)
plt.scatter(centers[:,0],centers[:,1],c='black',s=50)
k=3 #聚类中心个数
N=100 #数据集个数
cnames=['red','yellow','blue','chocolate','darkcyan','darksalmon','red','pink','yellow']
center=np.zeros((N,2)) #各数据分配的中心
point=np.random.rand(N,2) #数据集中的样本
index=np.random.choice(N,k,replace=False)
centers=point[index[:]] #随机抽取K个作为聚类中心
cluster()
show()
t1=0
t=getE()
while t-t1:
t1=t
getNewCenters()
cluster()
t=getE()
plt.pause(0.2)
plt.clf()
show()
plt.ioff()
代码效果: