
canopy聚类算法
文章平均质量分 89
fansy1990
这个作者很懒,什么都没留下…
展开
-
Mahout聚类算法canopy源码分析(1)
对于canopy的输入数据需要的形式为序列文件,同时保证key:Text、value:VectorWritable。昨晚准备打算使用单纯的java程序搞定输入数据的准备,无奈老是会出点问题,昨晚的问题“找不到文件”暂时还没找到原因。 其实如果只是要获得输入数据那么,可以使用mahout官网提供的方法在得到了序列的*.txt文件后直接把mahout-distribution-0.7.zip解压原创 2013-07-21 19:06:00 · 4565 阅读 · 2 评论 -
Mahout源码canopy聚类算法分析(2)
首先更正一点,前篇博客里面说到一个Canopy的测试的例子里面有这样的一句代码: buildClusters(Configuration conf, Path input, Path output, DistanceMeasure measure, double t1, double t2, double t3, double t4, int clusterFilter,原创 2013-07-22 22:24:22 · 3183 阅读 · 2 评论 -
Mahout源码canopy聚类算法分析(3)
经过了前面两篇文章的分析,相信大家对CanopyReducer的分析就不会碰到太大的疑问,因为CanopyReducer的操作简直就和CanopyMapper的操作一模一样,也是把所有的样本数据分为若干组,即又按照map的操作执行了一次,那么就会有同学问了?那不是都不需要用reduce么?大家这里想一下,map的输出和输入有什么区别。假如map的输入有100个样本被分为了5组,并且clusterF原创 2013-07-23 19:55:14 · 3796 阅读 · 6 评论