K-means算法的MapReduce并行化实现
1.K-means聚类算法的基本思路
假设把样本集分为K类,算法描述如下:
(1).首先在数据集合中随机选取k个点作为k个星团的质心
(2)然后计算每个点到k个质心的距离,将其归类为距离最近的那个质心所在的类,这样每个点都有了所属的类别
(3)对每个聚类中所有的点的坐标取平均值,将其设为新的质心
(4)重复迭代第二步和第三步,直到质心不变或者变化很小
下图展示了对n个样本点进行K-means聚类的效果,这里k取2。
本文介绍了如何将K-means聚类算法并行化,利用MapReduce模型在Hadoop上进行实现。通过Map函数计算样本点到质心的距离并分配类别,Reduce函数更新质心并计算平方误差和,反复迭代直至质心变化小于阈值,完成聚类。
K-means算法的MapReduce并行化实现
1.K-means聚类算法的基本思路
假设把样本集分为K类,算法描述如下:
(1).首先在数据集合中随机选取k个点作为k个星团的质心
(2)然后计算每个点到k个质心的距离,将其归类为距离最近的那个质心所在的类,这样每个点都有了所属的类别
(3)对每个聚类中所有的点的坐标取平均值,将其设为新的质心
(4)重复迭代第二步和第三步,直到质心不变或者变化很小
下图展示了对n个样本点进行K-means聚类的效果,这里k取2。
2060

被折叠的 条评论
为什么被折叠?