K-means算法理解

最新推荐文章于 2023-08-05 16:40:48 发布

原创最新推荐文章于 2023-08-05 16:40:48 发布 · 443 阅读

CC 4.0 BY-SA版权

今天没发用电脑，只能用手机来写了，所以就精简一点，而且也没法发图辅助大家理解了，不过我会在明天的博客里更加深入的分析的，今天先简要说一下自己认为比较容易的理解方法：

Kmeans主要分为四个步骤

第一，随机确定种子点的数目（即k的大小）和空间分布位置；

第二，通过计算各个样本点距离种子点的距离来确定样本点的初始分布（这里的距离计算初中几何学过的）；

第三，确定初始分布后，根据各个聚类点分布重新求解种子点的空间分布（这里的点群中心确定方法大致有三种，个人感觉效果比较好的是呈星形聚类minkowski方法）；

第四，重复二三步，直到种子点的分布不再发生变化为止。

目前为止，在Kmeans方法中的缺陷主要围绕种子点的数目和空间初始位置展开，改进方法主要有两种：

第一，针对种子点数目确定改进的isodate方法，通过类的自动合并和分裂，得到较为合理的类型数目K；

第二，针对种子点空间分布进行改进的Kmeans＋＋方法，该方法可以有效选择初始种子点的最优分布。

好的，就先讲到这，经典资料有Ng的论文和Google搜索里面找到的demo和代码，链接明天发，好，收工！