
Mahout
文章平均质量分 60
chenwq1988
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Eclipse导入Mahout
1、环境配置 a)JDK,使用1.6版本。需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量。 b)Maven,使用2.0.11版本或以上。在eclipse上安装maven插件—m2eclipse。2、下载Mahout源代码 与其他Apache下开源项目类似,可以有两种获取源码的方法: 一是通过Subversion...原创 2012-06-01 20:33:03 · 335 阅读 · 0 评论 -
Mahout文件系统结构说明
Mahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对Mahout的组成进行介绍: 1、mahout-core:核心程序模块,位于/core目录下; 2、mahout-math:在核心程序中使用的一些数据通用计算模块,位于/math目录下; 3、mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下;上述三个部分是程序...原创 2012-06-01 20:35:42 · 274 阅读 · 0 评论 -
Mahout实现的机器学习算法
使用命令:mahout -h 在Mahout实现的机器学习算法见下表:算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法...2012-06-01 20:37:59 · 229 阅读 · 0 评论 -
Mahout K-means clustering 入门
Mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。SequenceFile是Hadoop中的一个类,允许我们向文件中写入二进制的键值对。 Mahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。(You may find Tika (http://lucene.apache.org/tika)...原创 2012-06-03 10:18:35 · 184 阅读 · 0 评论 -
Mahout clustering Canopy+K-means 源码分析
聚类分析 聚类(Clustering)可以简单的理解为将数据对象分为多个簇(Cluster),每个簇 里的所有数据对象具有一定的相似性,这样一个簇可以看多一个整体对待,以此可以提高计算质量或减少计算量。而数据对象间相似性的衡量通常是通过坐标系中空间距离的大小来判断;常见的有 欧几里得距离算法、余弦距离算法、皮尔逊相关系数算法等,Mahout对此都提供了实现,并且你可以在实现...原创 2012-06-03 16:10:08 · 329 阅读 · 0 评论 -
Mahout Creating Vectors from Weka's ARFF Format
转自: https://cwiki.apache.org/MAHOUT/creating-vectors-from-wekas-arff-format.htmlIntroductionMahout now has capabilities for converting Weka's ARFF (2.1) format to Mahout's Vector format.Runn...原创 2012-06-12 17:00:59 · 150 阅读 · 0 评论 -
Mahout资源
Quickstart Creating Vectors from TextClustering Your Data原创 2012-06-14 16:38:27 · 143 阅读 · 0 评论