mahout SparseVectorsFromSequenceFiles详解（1）

最新推荐文章于 2013-03-07 15:11:18 发布

原创最新推荐文章于 2013-03-07 15:11:18 发布 · 2k 阅读

0 ·

CC 4.0 BY-SA版权

mahout 专栏收录该内容

33 篇文章

订阅专栏

本文介绍Apache Mahout中SparseVectorsFromSequenceFiles工具的工作流程，包括如何将文档转换为SequenceFile并进一步转换为向量，解析了该工具的初始化过程及参数设置。

mahout预处理数据的第一步是将文档转化为可以被hadoop处理的sequencefile，第二步是从sequencefile转化为Vector，称为Vectorizer过程，这里剖析的SparseVectorsFromSequenceFiles是其中一个实现。

SparseVectorsFromSequenceFiles.java位置在mahout-distribution-0.6/core/src/main/java/org/apache/mahout/vectorizer

初始化过程

1、创建builder：

DefaultOptionBuilder

ArgumentBuilder

GroupBuilder

2、创建Option：

inputDirOpt

outputDirOpt

minSupportOpt

analyzerNameOpt

chunkSizeOpt

weightOpt

minDFOpt

maxDFPercentOpt

maxDFSigmaOpt

minLLROpt

numReduceTasksOpt

powerOpt

logNormalizeOpt

maxNGramSizeOpt

sequentialAccessVectorOpt

namedVectorOpt

overwriteOutput

helpOpt

3、创建Group

4、创建parser，参数是group

      Parser parser = new Parser();
      parser.setGroup(group);
      parser.setHelpOption(helpOpt);

5、获得CommandLine

CommandLine cmdLine = parser.parse(args);

6、通过CommandLine获得各参数值，例如：

      int minDf = 1;
      if (cmdLine.hasOption(minDFOpt)) {
        minDf = Integer.parseInt(cmdLine.getValue(minDFOpt).toString());
      }

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

softwarehe

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Mahout算法详解

06-24

### Mahout算法详解 #### Mahout推荐算法概览 Mahout是一个开源项目，专注于为开发者提供一系列用于构建高度可伸缩的大数据推荐引擎、聚类分析以及分类算法库。其核心算法包括协同过滤、聚类分析及分类算法，广泛...

Mahout推荐算法API详解

01-30

参与评论您还未登录，请先登录后发表或查看评论

mahout SparseVectorsFromSequenceFiles详解（3）

softwarehe的专栏

01-17

1487

创建dictionary和tf-vectors 实现类是DictionaryVectorizer 调用createTermFrequencyVectors方法，参数是： input，output，tfVectorsFolderName，baseConf，这几个参数很明显 minSupport -- 最少要在文档中出现多少次才会放置到sparsevector，缺省值2 maxNGramSi

mahout SparseVectorsFromSequenceFiles详解（5）

softwarehe的专栏

01-17

1010

这一部分讲述createDictionaryChunks 参数 wordCountPath，这是输入目录，即上面wordcount目录 dictionaryPathBase，输出目录其它几个参数很明显代码很简单 List chunkPaths = Lists.newArrayList(); Configuration conf = new Configur

mahout SparseVectorsFromSequenceFiles详解（8）

softwarehe的专栏

01-18

1083

最后一步，生成tf-idf 调用方法是TFIDFConverter.processTfIdf，继续以tf-vectors为输入目录先是makePartialVectors，hadoop程序，Mapper是缺省的，Reducer是TFIDFPartialVectorReducer @Override protected void reduce(WritableComparable

mahout SparseVectorsFromSequenceFiles详解（6）

softwarehe的专栏

01-18

1094

这一部分是tf的生成首先是生成PartialVectors，每个dictionaryChunk生成一个PartialVectors，代码如下： int partialVectorIndex = 0; Collection partialVectorPaths = Lists.newArrayList(); for (Path dictionaryChunk : d

mahout SparseVectorsFromSequenceFiles详解（7）

softwarehe的专栏

01-18

935

现在进入倒数第二步，DF的生成 calculateDF 调用方法是TFIDFConverter.calculateDF 输入目录是tf-vectors目录，上一个步骤生成的，key是文档目录，value是词频vector 真正的执行方法是startDFCounting，又是一个hadoop程序，mapper是TermDocumentCountMapper，reducer是TermDoc

mahout SparseVectorsFromSequenceFiles详解（2）

softwarehe的专栏

01-17

1431

文档处理 DocumentProcessor类处理sequencefile 创建输出Path Path tokenizedPath = new Path(outputDir, DocumentProcessor.TOKENIZED_DOCUMENT_OUTPUT_FOLDER); 这个Path是hadoop的函数，前面的参数是parent，后面的参数是child，将他们组合在一起并规范化（

Mahout入门指南：实战Apache Mahout Cookbok详解

《Mahout实践指南》是一本深入浅出的大数据技术专著，由 Piero Giacomelli 著作，靳小波翻译，属于Apache Mahout Cookbooks系列的一部分。这本书是针对那些希望入门或者进一步理解Apache Mahout，一个开源的机器学习...

mahout推荐算法详解

01-15

Mahout-机器学习资源

最新发布

03-14

Mahout是一个利用Apache Hadoop进行大规模机器学习算法的框架。Mahout致力于提供易于使用的可扩展机器学习算法，这些算法可以处理大数据集。作为分布式计算系统的补充，Mahout使用MapReduce编程模型来分解复杂的问题...

mahout SparseVectorsFromSequenceFiles详解（4）

softwarehe的专栏

01-17

855

这一部分讲述当n-gram不为1时候的情况待续。。。

“基于 Apache Mahout 构建社会化推荐引擎”一文例子运行纪实

softwarehe的专栏

04-16

6928

这篇文章原作者不知何故，在几个关键点上一笔带过，想要让例子运行起来，得费自己好大功夫才能搞定，去年我搞好了一次，没记博客，结果服务器不知怎么原来东西没了，这次我是花了2天时间搞定的，记下来一是为自己备忘，也希望能帮助那些还在苦闷的同行者。 1：Taste 的安装与简单的 Demo 实现这一部分还是写的比较好的，基本按照文档操作就能看到结果 2：使用 Taste 构建推荐引擎实例 – 电

lingo算法学习

softwarehe的专栏

01-09

4137

层次聚类算法，首先要有好的分类效果，同时提取类别标签更为重要 lingo算法利用后缀数组聚类 lingo算法分析： 1：文本预处理过滤文档中的HTML标签、实体，去除非字母字符，提取词干，去除停止词 2：关键词提取利用奇异值分解方法发现抽象概念，奇异值分解概念理解需要有线性代数和统计等知识 3：类标签提取 4：文档分配 5：形成最终聚类

mahout开发环境搭建

softwarehe的专栏

03-15

3468

1：java版本选择选择1.6版本，ide选择eclipse 2：安装maven 选择二进制包，解压后添加M2_HOME和M2环境变量，参见maven的官网，在/etc/profile的PATH添加maven的bin路径，我的是如下设置的PATH=$PATH:/opt/apache-maven-3.0.3/bin 3：安装mahout 解压 mvn install 如果jdk使用的

minhash在mahout小实验

softwarehe的专栏

01-10

1962

随便写几个文本文件到examples/minhash-test/ 执行以下命令： unset HADOOP_HOME unset HADOOP_CONF_DIR bin/mahout seqdirectory -c UTF-8 -i examples/minhash-test/ -o minhash-test-seqfiles bin/mahout seq2sparse -i minha

Mahout MinHash代码阅读理解

softwarehe的专栏

01-21

1794

MinHash的介绍请参看http://rdc.taobao.com/team/jm/archives/2434 初始化 Configuration conf = getConf(); conf.setInt(MinhashOptionCreator.MIN_CLUSTER_SIZE, minClusterSize); conf.setInt(Minhas

mahout in action推荐系统阅读笔记（4）

softwarehe的专栏

03-07

1763

DataModel datamodel里边存放所有userids，itemids，preference values，提供访问接口基于内存的DataModel GenericDataModel 一个最简单实现是GenericDataModel，数据源都来自于内存 GenericDataModel包含下面四个属性： private final long[] userIDs;