
mahout
nuoline
关注NLP,ML,云计算,大数据,hadoop
微博:http://weibo.com/nuoline
个人博客网站:http://www.zhaizhouwei.cn/
展开
-
mahout源码分析-02
AdaptiveLogisticRegression.java 实现了OnlineLearner接口。维护一个普通的OnlineLogisticRegression学习器池,池中的每一个元素都有不同的学习率。一个主意是学习器池实际维护一个CrossFoldLearners(包含数个OnlineLogisticRegression对象)。这些池允许我们进行性能估计如果对数据做很多次时。如果有原创 2013-02-25 18:36:48 · 1770 阅读 · 0 评论 -
贝叶斯并行分类分析
1 贝叶斯训练器所在包:Package org.apache.mahout.classifier.bayes实现机制The implementation is divided up into three parts:The Trainer -- responsible for doing the counting of the words and ...原创 2010-11-27 00:20:02 · 209 阅读 · 0 评论 -
mahout分类源码分析
mahout分类源码分析接口Interface OnlineLearner:实现的类:AbstractOnlineLogisticRegression, AdaptiveLogisticRegression, CrossFoldLearner, OnlineLogisticRegression方法如下:void train(int actual, Vec...原创 2010-11-19 17:33:03 · 159 阅读 · 0 评论 -
BayesWeightSummerMapper
import java.io.IOException;import org.apache.hadoop.io.DoubleWritable;import org.apache.hadoop.mapred.MapReduceBase;import org.apache.hadoop.mapred.Mapper;import org.apache.hadoop.mapred.O...原创 2010-11-13 18:58:54 · 116 阅读 · 0 评论 -
mahout从文本建造向量
IntroductionFor clustering documents it is usually necessary to convert the raw text into vectors that can then be consumed by the clustering Algorithms. These approaches are described below.Fro...原创 2010-11-13 18:55:24 · 165 阅读 · 0 评论 -
K-均值聚类(K-means clustering)
K-均值聚类(K-means clustering)是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据,在基因表达数据分析中得到广泛应用,如Tavazoie等应用K-means聚类酵母细胞周期表达数据。在K-means算法运行前必须先指定聚类数目K和迭代次数或收敛条件,并指定K个初始聚类中心,根据一定的相...原创 2010-11-12 13:42:55 · 362 阅读 · 0 评论 -
mahout转化成eclipse项目
1、从http://www.apache.org/dyn/closer.cgi/lucene/mahout/ 下载mahout0.4代码2、下载maven http://maven.apache.org/ 左侧菜单中的get mevan3、解压两个包4、打开命令行窗口5、进行mahout目录:cd mahout保存目录/6、让maven生成eclipse项...原创 2010-11-12 13:25:18 · 100 阅读 · 0 评论 -
mahout贝叶斯并行分类分析
贝叶斯并行分类分析1 贝叶斯训练器所在包:<noscript></noscript>Package org.apache.mahout.classifier.bayes 实现机制The implementation is divided up into three parts: The Trainer -- responsible for...原创 2011-03-11 10:49:57 · 118 阅读 · 0 评论 -
mahout中的org.apache.mahout.clas…
Package org.apache.mahout.classifier.sgd一,接口概要1,Interface GradientProvides the ability to inject a gradient into the SGD logisticregresion. Typical uses of this are to use a ranking score such as原创 2013-02-25 18:36:46 · 785 阅读 · 0 评论 -
mahout分类源码分析-01
mahout分类源码分析接口Interface OnlineLearner:实现的类:AbstractOnlineLogisticRegression, AdaptiveLogisticRegression,CrossFoldLearner, OnlineLogisticRegression方法如下:void train(int actual, Vector in原创 2013-02-25 18:36:44 · 619 阅读 · 0 评论 -
mahout转化成eclipse项目并运行示…
1、从http://www.apache.org/dyn/closer.cgi/lucene/mahout/下载mahout0.3代码2、下载maven http://maven.apache.org/ 左侧菜单中的getmevan3、解压两个包4、打开命令行窗口5、进行mahout目录:cd mahout保存目录/6、让maven生成eclipse项目,在命令行中执行:maven原创 2013-02-25 18:36:35 · 1858 阅读 · 0 评论 -
关于mahout中的canop聚类
1.Canopy聚类Canopy聚类是一种简单、快速、但不太准确的聚类方法。该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。while(没有标记的数据点){ 选择一个没有强标记的数据点p 把p看作一个新Canopy c的中心 离p距离 离p距离}Canopy聚类常作为更强聚类方法的初始步骤。mahout Canopy聚类实现 ,采用了两原创 2013-02-25 18:36:33 · 977 阅读 · 0 评论 -
Hadoop下配置kmeans计算
原文地址:Hadoop下配置kmeans计算作者:bicloudHadoop下配置kmeans计算Rehl5 + hadoop-0.19.21下载mahouthttp://apache.freelamp.com//mahout/2解压缩mahouttar zxvf mahout-0.3.tar.gz3配置环境变量exportHADOOP_CONF_DIR=/usr/local/ha转载 2013-02-25 18:36:26 · 656 阅读 · 0 评论 -
mahout贝叶斯分类示例异常处理
参照https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的步骤,其中关于hadoop与mahout的配置启动之类的以前的文章都记录过,此处直接在mahout-0.4上运行例子过程(当然也在mahot-0.3上进行了测试,一切正常)。首先,下载数据集20news-bydate.tar.gz,在$MAHOUT_HO原创 2013-02-25 18:37:26 · 1143 阅读 · 0 评论 -
mahout贝叶斯并行分类分析
贝叶斯并行分类分析1 贝叶斯训练器所在包:Packageorg.apache.mahout.classifier.bayes实现机制The implementation isdivided up into three parts:The Trainer -- responsible for doing thecounting of the words and the label原创 2013-02-25 18:37:10 · 916 阅读 · 0 评论 -
mahout并行分类bayes源码分析-2
2模型 BayesModel 类时用来表示训练结果的数据结构,BayesClassifier 需要使用。is the data structure used to represent the results of the trainingfor use by the BayesClassifier. A Model can be created by hand, or,if using原创 2013-02-25 18:36:53 · 1297 阅读 · 0 评论 -
mahout贝叶斯并行分类源码分析
1 贝叶斯训练器所在包:Packageorg.apache.mahout.classifier.bayes实现机制The implementation isdivided up into three parts:The Trainer -- responsible for doing thecounting of the words and the labelsThe Mo原创 2013-02-25 18:36:51 · 1444 阅读 · 0 评论 -
mahout并行bayes分类源码分析-2
2模型 BayesModel 类时用来表示训练结果的数据结构,BayesClassifier 需要使用。is the data structure used to represent the results of the training for use by the BayesClassifier. A Model can be created by hand, or, if usi...原创 2010-11-27 00:21:31 · 115 阅读 · 0 评论