利用Parkour和Mahout进行文本向量化与聚类分析
1. 文本转换为序列文件
在处理文本数据时,我们可以利用Mahout将文本文件转换为序列文件。Mahout提供了 SequenceFilesFromDirectory 类来完成这一任务,它可以将一个目录下的所有文本文件转换为一个序列文件。这个序列文件虽然在物理上可能存储为多个块(如在HDFS上),但在逻辑上它是一个文件,将所有输入文档表示为键值对,其中键是文件名,值是文件的文本内容。
以下是实现转换的代码:
(:import [org.apache.mahout.text
SequenceFilesFromDirectory])
(defn text->sequencefile [in-path out-path]
(SequenceFilesFromDirectory/main
(into-array String (vector "-i" in-path
"-o" out-path
"-xm" "sequential"
"-ow"))))
(defn ex-6-17 []
(text->sequencefile "data/reuters-text"
"data/reuters-sequencefile"))
可以通过命令
Parkour与Mahout文本聚类
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



