1.下载data文件
cd ~
curl -O http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data
cd ~
hadoop fs -put synthetic_control.data testdata
3.使用kmeans算法
hadoop jar /usr/local/opt/mahout/libexec/mahout-examples-0.13.0-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job


4.查看结果
cd ~
curl -O http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data
2.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)
hadoop fs -mkdir testdatacd ~
hadoop fs -put synthetic_control.data testdata
3.使用kmeans算法
hadoop jar /usr/local/opt/mahout/libexec/mahout-examples-0.13.0-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
4.查看结果
hadoop fs -lsr output
本文介绍如何利用Apache Mahout实现K-means聚类算法。具体步骤包括:下载数据文件、创建测试目录并导入数据、运行Mahout K-means算法以及查看聚类结果。适用于希望了解Mahout聚类应用的读者。
2536

被折叠的 条评论
为什么被折叠?



