Mahout安装

本文详细介绍了Mahout机器学习框架的安装过程,包括下载特定版本、解压文件、配置环境变量、测试安装状态等关键步骤,旨在帮助用户顺利搭建基于Hadoop/Spark的机器学习开发环境。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Mahout安装

目录

简介

Mahout 是基于hadoop/spark的机器学习框架,具体分为推荐引擎(recommender engines),聚类分析(clustering),分类(classifaction)

下载0.9版本

wget http://mirrors.cnnic.cn/apache/mahout/0.9/mahout-distribution-0.9.tar.gz
版本地址

解压

tar zxvf mahout-distribution-0.9.tar.gz

配置文件

查看 $MAHOUT_HOME/bin/mahout,可以看到需要配置几个环境变量

环境变量描述
MAHOUT_JAVA_HOME默认同 JAVA_HOME.
MAHOUT_HEAPSIZE使用的最大heap size,单位MB,默认1000
HADOOP_CONF_DIRhadoop 配置文件目录
MAHOUT_OPTSExtra Java runtime options.
MAHOUT_CONF_DIRThe location of the program short-name to class name mappings ,默认为”$MAHOUT_HOME/src/conf”
MAHOUT_LOCAL设置不为空,则mahout 会在local运行,即使HADOOP_CONF_DIR和HADOOP_HOME都设置了。
MAHOUT_CORE设置不为空,则mahout在开发者模式下运行,相当于设为为命令行下mahout -core,此时mahout在local运行,从target/classes加载类,而不是从jar包中读取。

所以确保如下环境变量设置,可以设置在~/.bashrc,也可以设置在bin/mahout中
$JAVA_HOME
$MAHOUT_HOME
$HADOOP_CONF_DIR
生效设置
source ~/.bashrc
验证是否安装完成
mahout

测试

下载数据集
wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data
上传hdfs
su hdfs
因为要使用org.apache.mahout.clustering.syntheticcontrol.kmeans.Job,源码中默认读取的目录在/user/$runtimeUser/testdata
所以将文件上传至
hdfs dfs -put synthetic_control.data /user/hdfs/testdata
运行
mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值