利用Parkour和Mahout进行文本处理与聚类分析
1. 文本转换为序列文件
在文本处理中,我们可以利用Mahout将文本文件转换为序列文件。Mahout提供了 SequenceFilesFromDirectory 类来完成这一任务,它能将文本文件目录转换为一个序列文件,该文件在逻辑上是一个整体,以键值对的形式表示所有输入文档,键为文件名,值为文件的文本内容。
以下是实现转换的代码:
(:import [org.apache.mahout.text
SequenceFilesFromDirectory])
(defn text->sequencefile [in-path out-path]
(SequenceFilesFromDirectory/main
(into-array String (vector "-i" in-path
"-o" out-path
"-xm" "sequential"
"-ow"))))
(defn ex-6-17 []
(text->sequencefile "data/reuters-text"
"data/reuters-sequencefile"))
此代码定义了 text->sequencefile 函
超级会员免费看
订阅专栏 解锁全文
2218

被折叠的 条评论
为什么被折叠?



