使用mahout fpgrowth算法求关联规则

最新推荐文章于 2015-09-21 10:10:25 发布

转载最新推荐文章于 2015-09-21 10:10:25 发布 · 737 阅读

文章标签：

#hadoop #mahout #fpgrowth #mapreduce #frequent pattern

hadoop 同时被 3 个专栏收录

2 篇文章

订阅专栏

关联规则

2 篇文章

订阅专栏

频繁模式

2 篇文章

订阅专栏

首先，这篇文章的内容大部分取自国外一篇博客Finding association rules with Mahout Frequent Pattern Mining，写这个出于几个原因，一原文是英文的；二该博客貌似还被墙了，反正我是用了goagent才看到的；三我简化了其实验内容，单纯的用数字表示item了。

　　首先是实验环境

jdk >= 1.8
hadoop (>=1.2.1)
mahout >= 0.9

　　环境搭建就不多说了，唯一注意的是mahout按照官网的指导绝对没问题，如果安装之后报错，可能是你的hadoop版本问题（一般mahout官网上面支持的是hadoop1.2），换个hadoop试试，我遇到的错就是一直

Exception in thread "main" java.lang.NoClassDefFoundError：classpath。

　　我用的数据是mahout官网上提供的retail.dat（本人用自己的数据分隔符是、t），使用哪个数据没关系，mahout fpgrowth的数据格式要求如下：　

　　[item id1], [item id2], [item id3]
　　0, 2, 6, ...
　　0, 1, 6, ...
　　4, 5, ...
　　...

　　间隔符可以是别的，retail.dat里用的是空格，但要注意的是使用命令行时要标志。

　　这里不设置MAHOUT_LOCAL，让mahout在hadoop上跑，所以先使用hadoop命令把数据放到hdfs上，在terminal输入：

　　hadoop fs -put output.dat retail.dat

　　然后输入如下指令运行mahout：

　　mahout fpg -i output.dat -o patterns -k 10 -method mapreduce -regex '[\ ]' -s 10 （这条指令：mahout fpg说真的在mahout0.9上没有了）

代替上述指令：hadoop jar ../mahout/mahout-distribution-0.9/mahout-examples-0.9-job.jar org.apache.mahout.fpm.pfpgrowth.FPGrowthDriver -i /user/hadoop/testdata/history_download -o out/ -k 3 -method mapreduce -regex '[\t]' -s 10

　　指令的含义在mahout的网站上有详细说明，简要说下，-i表示输入，-o表示输出，-k 10表示找出和某个item相关的前十个频繁项，-method mapreduce表示使用mapreduce来运行这个作业，-regex '[\ ]'表示每个transaction里用空白来间隔item的，-s 10表示只统计最少出现10次的项。

　　成功运行后在patterns文件夹里会出现四个文件或者文件夹