
FP树
文章平均质量分 91
fansy1990
这个作者很懒,什么都没留下…
展开
-
Mahout关联规则算法挖掘FP树
关联规则如何并行实现呢?一个很直观的想法是要么分数据要么分计算。本文要说的是分数据,想法来自mahout的fp-tree并行实现。其中分数据的博客已在前篇 mahout关联规则FPGrowthDriver源码分析之如何分数据 中说明,如何建树可以在网上查找(这个相对来说比较简单)或者直接看此片论文:《Mining FrequentPatterns without Candidate Gener原创 2013-03-23 16:44:50 · 3338 阅读 · 0 评论 -
Mahout关联规则算法源码分析(2)
上次说到这个函数: public final void generateTopKFrequentPatterns(Iterator,Long>> transactionStream, Collection> frequencyList,原创 2013-02-07 15:44:46 · 3040 阅读 · 0 评论 -
Mahout并行频繁集挖掘算法源码分析--读取最后结果
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 本来打算分析Parallel Frequent Pattern Mining算法的源码的,但是看到之前的blog感觉这个算法好像分析的比较详细了,所以这里就不再进行分析了,只写个最后读取结果频繁项集序列文件的代码好了: 下面的代码可以自己编写getRegex函数,来对输出的TopKStringPat原创 2013-10-24 01:26:21 · 3503 阅读 · 0 评论 -
Mahout关联规则算法源码分析--如何分数据
FP树的并行的大概算法就是把数据分小(并不是简单的分,分完后可以保证没有丢失频繁项),然后再使用每份小数据进行建树、挖掘树。那么mahout的FPGrowthDriver是如何分数据呢?其实前面也大概说了下,只是不是很特别的说明,在这里举例来说明: 比如如下的f-list: [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14] , 事务集如下: [0,1,2,4,7,原创 2013-03-20 23:52:27 · 3817 阅读 · 7 评论 -
Mahout并行频繁集挖掘算法源码分析(1)--实战
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 本系列分析Parallel Frequent Pattern Mining源码,本篇作为第一篇,首先进行实战,实战参考mahout官网内容。这里主要是测试sequential和mapreduce模式下对数据处理的耗时分析,使用数据为:retail.dat,前面几条数据如下: 0 1 2 3 4原创 2013-10-22 00:32:57 · 4331 阅读 · 6 评论