
Mahout
wbj0110
这个作者很懒,什么都没留下…
展开
-
Mahout – 机器学习
wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gztar -xzvf mahout-distribution-0.8.tar.gzcd mahout-distribution-0.8sudo vi /etc/profile增加: export PATH...原创 2013-12-03 09:43:24 · 103 阅读 · 0 评论 -
Mahout的安装配置与使用
Mahout 是Apache旗下的一个机器学习和数据挖掘的分布式框架,包括聚类,分类,协同过滤,关联规则挖掘等经典的算法。 1. 安装Maven wget http://apache.etoak.com//maven/maven-3/3.0.4/binaries/apache-maven-3.0.4-bin.tar.gz 下载最新版本的Maven. tar x...原创 2014-04-08 17:37:37 · 130 阅读 · 0 评论 -
Mahout协同推荐简单实例
Mahout给我们提供的强大的协同过滤算法。需要新建一个基于Maven的工程,下面是pom.xml需要导入的包。123456789101112131415161718192021222324252627<project xmlns="ht...原创 2014-04-04 09:41:45 · 159 阅读 · 0 评论 -
基于Apache Mahout构建社会化推荐引擎
推荐引擎简介推荐引擎利用特殊的信息过滤(IF,Information Filtering)技术,将不同的内容(例如电影、音乐、书籍、新闻、图片、网页等)推荐给可能感兴趣的用户。通常情况下,推荐引擎的实现是通过将用户的个人喜好与特定的参考特征进行比较,并试图预测用户对一些未评分项目的喜好程度。参考特征的选取可能是从项目本身的信息中提取的,或是基于用户所在的社会或社团环境。根据如何抽取参考...原创 2014-06-26 09:54:05 · 285 阅读 · 0 评论 -
Eclipse调用hadoop2运行MR程序
hadoop:hadoop2.2 ,windows myeclipse环境;Eclipse调用hadoop运行MR程序其实就是普通的java程序可以提交MR任务到集群执行而已。在Hadoop1中,只需指定jt(jobtracker)和fs(namenode)即可,一般如下: [java] view plaincopy Configuration conf...原创 2014-06-25 15:52:20 · 167 阅读 · 0 评论 -
Mahout 安装、配置
Mahout是 Hadoop 的一种高级应用。运行 Mahout 需要提前安装好 Hadoop,Linux 上 Hadoop 的安装配置可以参考文章: linux 上 JDK 的安装于配置SSH 无密码登陆的实现Hadoop 伪分布式的安装部署1.下载二进制安装包解压安装 到http://labs.renren.com/apache-mirror/mahout/0.7下...原创 2014-06-21 18:46:46 · 100 阅读 · 0 评论 -
Twenty Newsgroups Classification任务之二seq2sparse(1)
seq2sparse对应于mahout中的org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles,从昨天跑的算法中的任务监控界面可以看到这一步包含了7个Job信息,分别是:(1)DocumentTokenizer(2)WordCount(3)MakePartialVectors(4)MergePartialVectors(5)Ve...原创 2014-06-19 11:14:40 · 118 阅读 · 0 评论 -
mahout之TrainNaiveBayesJob源码分析
mahout的trainnb调用的是TrainNaiveBayesJob完成训练模型任务。所在包:org.apache.mahout.classifier.naivebayes.trainingTrainNaiveBayesJob的输入是在tfidf文件上split出来的一部分,用作训练。TrainNaiveBayesJob代码分析,首先加入一些命令行选项,如LABEL ...原创 2014-06-19 10:49:00 · 118 阅读 · 0 评论 -
mahout之TestNaiveBayesDriver源码分析
有个参数sequential决定是否本地执行,这里只讲MapReduce执行。源代码如下,123456789101112 private boolean runMapReduce(Map< string , List< String > > parsedArgs) throws IOException, InterruptedExce...原创 2014-06-19 10:46:43 · 100 阅读 · 0 评论 -
Mahout之SparseVectorsFromSequenceFiles源码分析
一系列添加选项的操作:包括minSupport,analyzerName,chunkSize,weight,minDF等等。123456789101112 Option chunkSizeOpt = obuilder.withLongName("chunkSize").withArgument(abuilder.withName("chunkSize").wit...原创 2014-06-19 10:15:19 · 120 阅读 · 0 评论 -
hadoop2.2+mahout0.9实战
版本:hadoop2.2.0,mahout0.9。使用mahout的org.apache.mahout.cf.taste.hadoop.item.RecommenderJob进行测试。首先说明下,如果使用官网提供的下载hadoop2.2.0以及mahout0.9进行调用mahout的相关算法会报错。一般报错如下:java.lang.IncompatibleClassChang...原创 2014-06-16 11:30:18 · 122 阅读 · 0 评论 -
Mahout for hadoop 2
https://issues.apache.org/jira/browse/MAHOUT-1329原创 2014-06-16 11:28:51 · 95 阅读 · 0 评论 -
用Maven构建Mahout项目
前言基于Hadoop的项目,不管是MapReduce开发,还是Mahout的开发都是在一个复杂的编程环境中开发。Java的环境问题,是困扰着每个程序员的噩梦。Java程序员,不仅要会写Java程序,还要会调linux,会配hadoop,启动hadoop,还要会自己运维。所以,新手想玩起Hadoop真不是件简单的事。不过,我们可以尽可能的简化环境问题,让程序员只关注于写程序。特别是像算法...原创 2014-05-20 16:39:42 · 134 阅读 · 0 评论 -
Mahout
12.1 简介Mahout为推荐引擎提供了一些可扩展的机器学习领域的经典算法实现,可以使开发人员更为快捷的创建智能应用程序。12.2 安装12.2.1 要求Hadoop集群已经正常启动12.2.2 配置这里选用0.7版本 tar -zxvf mahout-distribution-0.7.tar...原创 2014-05-18 13:20:39 · 270 阅读 · 0 评论 -
Mahout 算法
Mahour 包括协同过滤,基于User和Item的推荐;kmeans、Fuzzy-kmeans 、Mean shift 、Dirichlet process 、LDA聚类;奇异值分解;并行频繁项集挖掘;补充的贝叶斯分类、随机森林决策树分类。一、分类算法(一)Logistic 回归(SGD)(二)Bayesian (三)SVM(四)Perceptron 和Winnow(...原创 2014-05-17 10:44:01 · 129 阅读 · 0 评论 -
利用Mahout实现在Hadoop上运行K-Means算法
class="full-post-title">利用Mahout实现在Hadoop上运行K-Means算法 一、介绍Mahout Mahout是Apache下的开源机器学习软件包,目前实现的机器学习算法主要包含有协同过滤/推荐引擎,聚类和分类三个部分。Mahout从设计开始就旨在建立可扩展的机器学习软件包,用于处理大数据机器学习的问题,当你正在研究的数据量大到不能在一...原创 2014-05-14 19:10:04 · 169 阅读 · 0 评论 -
Mahout的相似性度量(相似度算法)
User CF 和 Item CF 都依赖于相似度的计算,因为只有通过衡量用户之间或物品之间的相似度,才能找到用户的“邻居”,才能完成推荐。上文简单的介绍了相似性的计算,但不完全,下面就对常用的相似度计算方法进行详细的介绍: 1. 基于皮尔森相关性的相似度 —— Pearson correlation-based similarity皮尔森相关系数反应了两个变量之间的线性相关程度,...原创 2014-04-11 10:40:16 · 348 阅读 · 0 评论