
实战
文章平均质量分 90
fansy1990
这个作者很懒,什么都没留下…
展开
-
Mahout线性回归算法源码分析(1)--实战
版本:mahout0.9Mahout里面使用逻辑回归(logistic regression)的主要两个类是org.apache.mahout.classifier.sgd.TrainLogistic、org.apache.mahout.classifier.sgd.RunLogistic,一个是建立模型,一个是进行模型评估。首先是原始数据,格式如下:(可以在https://github.com/原创 2014-04-15 16:24:33 · 6456 阅读 · 4 评论 -
Mahout贝叶斯算法实例--Twenty Newsgroups Classification
按照mahout官网https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的说法,我只用运行一条命令就可以完成这个算法的调用了,如下:mahout@ubuntu:~/mahout-d-0.7/examples/bin$ ./classify-20newsgroups.sh 但是,我首先运行就出错了,因为我不是ro原创 2013-08-27 00:03:07 · 4863 阅读 · 0 评论 -
Mahout协同过滤算法源码分析(1)
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。学习总是一个痛并快乐着的过程。。。今天简要介绍一下mahout中的Collaborative Filtering with ALS-WR,这个算法,你要问我这个是什么算法,我最多告诉你它是一个推荐算法,其他我也不知道。这里主要是参考这里的介绍Collaborative Filtering wi原创 2013-10-03 22:01:37 · 7115 阅读 · 10 评论 -
Mahout并行频繁集挖掘算法源码分析--读取最后结果
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。本来打算分析Parallel Frequent Pattern Mining算法的源码的,但是看到之前的blog感觉这个算法好像分析的比较详细了,所以这里就不再进行分析了,只写个最后读取结果频繁项集序列文件的代码好了:下面的代码可以自己编写getRegex函数,来对输出的TopKStringPat原创 2013-10-24 01:26:21 · 3503 阅读 · 0 评论 -
Mahout并行频繁集挖掘算法源码分析(1)--实战
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。本系列分析Parallel Frequent Pattern Mining源码,本篇作为第一篇,首先进行实战,实战参考mahout官网内容。这里主要是测试sequential和mapreduce模式下对数据处理的耗时分析,使用数据为:retail.dat,前面几条数据如下:0 1 2 3 4原创 2013-10-22 00:32:57 · 4331 阅读 · 6 评论