
mean shift canopy聚类算法
文章平均质量分 91
fansy1990
这个作者很懒,什么都没留下…
展开
-
Mahout源码MeanShiftCanopy聚类算法分析(2)
首先更正一点,昨天处理数据的时候是有问题的,直接从网页中拷贝的文件的空格是有问题的,直接拷贝然后新建的文件中的空格可能有一个两个、三个的,所以要把两个或者三个的都换为一个,在InputMapper中下面的代码: private static final Pattern SPACE = Pattern.compile(" "); String[] numbers = SPACE.split(val原创 2013-08-23 01:32:40 · 2427 阅读 · 1 评论 -
Mahout源码MeanShiftCanopy聚类算法分析(1)
如果要先把meanshift算法先跑一遍的话,可以直接使用synthetic_control.data数据来做,把synthetic_control.data 下载赋值到一个文本文件中,然后上传到HDFS文件系统上面,使用下面的命令: bin/hadoop fs -put synthetic_control.data testdata;上传完毕后直接在mahout中运行:bin/mahout原创 2013-08-22 01:32:11 · 3015 阅读 · 0 评论 -
Mahout源码MeanShiftCanopy聚类算法分析(3)
继上篇博客,分析MeanShiftCanopyMapperFollow: 首先要获得数据,MeanShiftCanopyMapperFollow的getMapData函数是改编自KMeansDriver中的一段代码,主要是读取序列文件的Value值,把这些Value值返回一个变量,其中涉及到强制转型,这里转型的代码改编一下就可以适应来读取不同的序列文件的value值了。 因为使用的是synth原创 2013-08-24 19:34:22 · 2348 阅读 · 0 评论 -
Mahout源码MeanShiftCanopy聚类算法分析(3-1)
首先贴上MeanShiftCanopyReducer的仿造代码,如下: package mahout.fansy.meanshift; import java.io.IOException; import java.util.Collection; import java.util.HashMap; import java.util.Map; import org.apache.hadoop原创 2013-08-25 01:17:08 · 2388 阅读 · 0 评论