
Mahout
文章平均质量分 91
zhan8610189
这个作者很懒,什么都没留下…
展开
-
Mahout Kmeans Clustering 学习
一、Mahout命令使用合成控制的数据集 synthetic_control.data 可以从 此处下载,总共由600行X60列double型的数据组成, 意思是有600个元组,每个元组是一个时间序列。1. 把数据拷到集群上,放到kmeans/目录下hadoop fs -mv synthetic_control.data kmeans/synthetic_control.data...原创 2013-05-04 18:02:01 · 271 阅读 · 0 评论 -
Mahout Canopy Clustering学习
KMeans聚类可以通过你给定的k值把集合聚类成k个集合。有时,你无法知道这个集合分成几类最佳,即无法给出相应的k值。Canopy 聚类 可以帮你解决这个问题。它能够在你给出的域值[t2, t1]范围内,把这些数据分成若干类别,每种类别称之为Canopy。在Mahout里面的 CanopyDriver.buildClusterMR() 完成了一种Canopy聚类的Map/Reduce实现:...原创 2013-05-08 21:02:23 · 109 阅读 · 0 评论