mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile

Mahout文件转换

最新推荐文章于 2021-01-15 18:56:13 发布

最新推荐文章于 2021-01-15 18:56:13 发布 · 396 阅读

文章标签：

#lucene #Hadoop #PHP #BBS #Apache

mahout 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了如何使用Mahout工具将文本文件转换为SequenceFile格式，这是进行后续数据处理的基础步骤。文章提供了具体的命令行示例，并指出了SequenceFile在Hadoop生态系统中的作用。

部署运行你感兴趣的模型镜像

mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile。

SequenceFile是hadoop中的一个类，允许我们向文件中写入二进制的键值对，具体介绍请看
eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&amp
mahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。
（You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents to text.）
使用方法如下：
$MAHOUT_HOME/bin/mahout seqdirectory \
--input <PARENT DIR WHERE DOCS ARE LOCATED> --output <OUTPUT DIRECTORY> \
<-c <CHARSET NAME OF THE INPUT DOCUMENTS> {UTF-8|cp1252|ascii...}> \
<-chunk <MAX SIZE OF EACH CHUNK in Megabytes> 64> \
<-prefix <PREFIX TO ADD TO THE DOCUMENT ID>>

举个例子：
bin/mahout seqdirectory --input /hive/hadoopuser/ --output /mahout/seq/ --charset UTF-8