
mahout
dataee
解决方案咨询
大数据处理
系统架构
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mahout常用Vector一览表
mahout常用Vector一览表: org.apache.mahout.math.ConstantVector; org.apache.mahout.math.DenseVector; org.apache.mahout.math.NamedVector; org.apache.mahout.math.RandomAccessSparseVector; org.apache.maho...2013-04-19 19:16:56 · 220 阅读 · 0 评论 -
mahout之MinK
版本依赖: <dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.6</version> </dependency>2013-05-02 19:04:29 · 110 阅读 · 0 评论 -
mahout之MinHash实现
MinHash可用于聚类或者计算相似度,详情概述参见"MinHash概述及举例"博客,此处阐述mahout的MinHash实现,mahout用minhash来聚类。 涉及主要类: org.apache.mahout.clustering.minhash.MinHashDriver org.apache.mahout.clustering.minhash.MinHashMapper ...2013-05-03 11:37:11 · 209 阅读 · 0 评论 -
推荐引擎中的RMS和RMSE
RMS值实际就是方均根值,就是一组统计数据的平方和的平均值的平方根。 RMSE为均方根误差,标示实际值与预测值之间的误差。公式如下: MAE为平均绝对误差 其中X(is)为x(i)的实际值,X(i)为预测值 ...2013-05-22 19:09:27 · 1645 阅读 · 0 评论 -
Mahout之文本向量化
背景: 进行文本挖掘的时候,无论是聚类还是相似计算首先需要向量化。 思路: 对于某一文本计算完其tf(tf-idf)之后生成word->tf(tf-idf)的对应表,那么构造成向量记做: v=(a1,a2,…,an) 此为为n维向量。a1...an为tf(tf-idf),同时我们把word转换成int来作为下标。 实现: /** * vector转换 * ...2013-05-23 16:43:24 · 227 阅读 · 0 评论 -
Mahout之Slope-one应用使用
环境: <dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.8</version> </dependenc2014-02-14 17:37:49 · 230 阅读 · 0 评论 -
Mahout之算法实现一览表
Collaborative Filtering User-Based Collaborative Filtering - single machine Item-Based Collaborative Filtering - single machine / MapReduce Matrix Factorization with Alternating Least Squares ...2014-07-30 16:56:07 · 225 阅读 · 0 评论 -
Mahout分类之决策树PartialBuilder应用使用
mahout版本:0.9 hadoop版本:2.3.0 基于决策树步骤如下: 1.基于已有数据形成描述文件 2.训练建树 3.分类预测 数据集: http://nsl.cs.unb.ca/NSL-KDD/ 下载KDDTrain+.TXT和KDDTest+.TXT 具体的应用步骤: 1.上传数据到hdfs上: hadoop put *.TXT /user/test/df/...2014-09-09 18:13:52 · 283 阅读 · 0 评论 -
Mahout之Describe应用使用
Describe用于生成数据描述文件主要用于决策树分类使用,换句话说就是对数据项的描述说明,为json格式,生成的样例如下: [ { "values": null, "label": false, "type": "numerical" }, { "values": [ ...2014-09-09 18:56:44 · 179 阅读 · 0 评论