K-means算法思想:
(1)K值随机初始化,簇分配,哪些离某个颜色近,就放到哪个簇里面。
(2)移动聚类中心,移到某一类的平均值处,循环,再移动点,让K均值聚合
K-means++算法初始簇的中心点
1、从输入的数据点集合中随机选择一个点作为聚类中心。
2、对于数据集中的每一个点x,计算它与最近聚类中心的距离D(x)
3、选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选择作为聚类中心的概率较大。
4、重复2和3直到K个聚类中心北选出来
5、利用这K个初始的聚类中心来运行表针的K-means算法。
K-means中如何确定k:
对于A、B、C、D、E,先随机生成两个数据项,将距离最近的数据合为一类,然后取平均值生成两个数据项,再次将距离最近的数据合为一类,如此重复,知道数据固定。
K的选择:
1、按需选择:按照需求来选择k值
2、观察法:肉眼看能分成几类
3、手肘法:把所有的样本点到它所在的聚类中心点的距离的和作为模型的度量,记为DK,对于不同的K,最后我们会得到不同的中心点和聚类,所有会有不同的度量,当K越大的时候,距离和越小,我们注意到K=3是一个拐点,就像我们的肘部一样,
4、Gap Statistic
K-means算法
最新推荐文章于 2024-02-01 09:30:37 发布