K-means算法:
K-means算法是十大经典数据挖掘算法之一,它将原始数据集划分为k个聚类,同一个聚类中的数据相似度高不同聚类中数据点相似度低,而相似度一般通过欧式距离来度量,即归到同一个聚类中的数据点到聚类中心的距离较近。K-means算法的核心思想是,先随机从数据集中选择k个点作为中心,然后将所有的点归类到每个聚类中。
聚类步骤描述如下:
(1)选择k个类心作为初始的中心,尽量能翻译所有数据点的大致分布情况,
(2)计算每个点到K个类心的距离,排序后归类到距离最近的聚类中,
(3)根据每个聚类的平均值重新更新类心
(4)重新执行(2)(3)两步不断迭代优化。
K-means