
并行频繁集挖掘
文章平均质量分 91
fansy1990
这个作者很懒,什么都没留下…
展开
-
Mahout并行频繁集挖掘算法源码分析(1)--实战
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 本系列分析Parallel Frequent Pattern Mining源码,本篇作为第一篇,首先进行实战,实战参考mahout官网内容。这里主要是测试sequential和mapreduce模式下对数据处理的耗时分析,使用数据为:retail.dat,前面几条数据如下: 0 1 2 3 4原创 2013-10-22 00:32:57 · 4331 阅读 · 6 评论 -
Mahout并行频繁集挖掘算法源码分析--读取最后结果
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 本来打算分析Parallel Frequent Pattern Mining算法的源码的,但是看到之前的blog感觉这个算法好像分析的比较详细了,所以这里就不再进行分析了,只写个最后读取结果频繁项集序列文件的代码好了: 下面的代码可以自己编写getRegex函数,来对输出的TopKStringPat原创 2013-10-24 01:26:21 · 3503 阅读 · 0 评论