k-means 聚类hadoop 平台
1.1 在参考了
《数据算法-hadoop 、spark 》 289 页;文章 Research on Parallel k-means Algorithm Design Based on Hadoop Platform 基于云计算平台Hadoop的并行k-means聚类算法设计研究;http://blog.youkuaiyun.com/kghwettwe/article/details/43917107 代码
大概了解了 k-means 的流程
1.2 在map 主要做的是计算各个数据点与聚类中心的距离并且找出与样本对应的最近中心。 计算新的聚类中心