hadoop2.7+mahout0.13.0在数据集synthetic_control.data具体操作

本文介绍如何在Ubuntu16.04环境下安装配置Hadoop2.7与Mahout0.13.0,并实现基于synthetic_control数据集的k-means聚类分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

hadoop 2.7+mahout0.13.0

运行环境:Ubuntu16.04

master节点:1

slave节点:2

数据集地址:http://archive.ics.uci.edu/ml/databases/synthetic_control

安装hadoop(略)

安装mahout

在官网下载mahout0.13.0版本地址:http://www-eu.apache.org/dist/mahout/

使用tar -zvxf  文件名,进行解压。看好解压路经因为后边要配置环境变量。

环境变量配置如下:

vim /etc/profile编辑

在profile中添加

export MAHOUT_HOME=/opt/apache-mahout-distribution-0.13.0
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf

在PATH上添加MAHOUT_HOME和 MAHOUT_CONF_DIR

export PATH=$JAVA_HOME/bin:$SCALA_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/bin:$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH

然后执行source /etc/profile

然后在执行mahout --help没有错误,则mahout安装成功。


然后上传synthetic_control.data到hdfs,这里路经为user/spark/testdata。笔者也不知道为啥是testdata,放在其他位置报找不到路经的错误。

执行mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job


查看hadoop上边运行情况


查看hadoop的hdfs


可以看到分了10个类别。一个简单的流程就是这样子,还在学习。







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值