K-means与K-means++聚类算法详解及SPSS实现-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44296846/article/details/123042830

聚类模型

1.K-means聚类算法

K-means聚类的算法流程：

一、指定需要划分的簇的个数K值（类的个数）；
二、随机地选择K个数据对象作为初始的聚类中心（不一定要是样本点）；
三、计算其余的各个数据对象到这K个初始聚类中心的距离，把数据对象划归到距离它最近的那个中心所在的簇类中；
四、调整新类（同一个簇中的数据对象）并且重新计算出新类的中心；
五、循环步骤三和四，看中心是否收敛（不变），如果收敛或达到迭代次数（10次左右）则循环停止；
六、结束

K-means聚类可视化

Ps:多使用算法流程图

对K-means算法的评价

优点：
（1）算法简单、快速
（2）对处理大数据集，该算法是相对高效率的。
缺点：
（1）要求用户必须事先给出要生成的簇的数目K
（2）对初值K敏感
（3）对于孤立点数据敏感

2.K-means++算法

K-means++算法选择初始聚类中心的基本原则是：初始的聚类中心之间的相互距离要尽可能的远

对K-means算法“初始化K个聚类中心”进行优化

一、随机选取一个样本作为第一个聚类中心；
二、计算每个样本与当前已有聚类中心的最短距离（即与最近一个聚类中心的距离），这个值越大，表示被选取作为聚 类中心的概率较大；最后，用轮盘法（依据概率大小来进行抽选）选出下一个聚类中心；
三、重复步骤二，直到选出K个聚类中心。选出初始点后，就可以继续使用标准的K-means算法了。
四、第n(n>2)个聚类中心的寻找办法：找到已确定的聚类中心的中心，计算每个样本与该中心的最短距离，按照步骤二处理