kmean–算法,步骤介绍
***此处有图1 ***
- 随机在数据中抽取3个样本,当做3个类别的中心点(k1,k2,k3)
- 计算其余的点到这3个中心点的距离,每一个样本有3个距离(a,b,c),从中选选出距离最近的一个点作为自己的标记形成的个族群
- 分别计算和三个族群的平均值,把3个平均值与之前的三个旧中心点比较,如果相同:结束聚类,如果不同:把这3个点当成新的中心点,重复第2次
api—from sklearn.cluster import KMeans
- n_clusters:中心点的个数
kmeans.fit(X)-----把训练集传入进去
predict(X)----------预测点的位置,通俗的来说就是分点了
聚类评估
计算公式
sci=( bi-ai)/max(bi,ai)
***此处有图2 ***
评估步骤:
- 计算蓝1到自身类别的点距离的平均值a_i
- 计算蓝1分别到红色类别,绿色类别所有点的距离,求出平均值b1,b2,取其中最小值当b_i
kmeans----性能指标api
from sklearn.metrics import silhouette_score
silhouette_score(x,predict)