mahout 初次安装

Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。

1、下载解压安装。
 http://labs.renren.com/apache-mirror/mahout/下载,
 直接解压及可。
 hadoop@ubuntu:~$ tar -zxvf mahout-distribution-0.9.tar.gz

2、配置环境变量:
 MAHOUT_HOME和PATH

3、启动hadoop,也可以用伪分布式来测试

4、mahout --help    #检查Mahout是否安装完好,看是否列出了一些算法

5、mahout使用测试
a.下载测试文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

b.启动Hadoop:$HADOOP_HOME/bin/start-all.sh

c.创建测试目录testdata,并把数据导入到这个testdata目录中(这里的目录的名字只能是testdata)

hadoop@ubuntu:~/$ hadoop fs -mkdir /testdata #
hadoop@ubuntu:~/$ hadoop fs -put synthetic_control.data /testdata

d.使用k-means算法(这会运行几分钟左右)

hadoop@ubuntu:~/$ hadoop jar /home/hadoop/mahout-distribution-0.7/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

e.查看结果

hadoop@ubuntu:~/$ hadoop fs -lsr output

clusteredPoints  clusters-0  clusters-1  clusters-10  clusters-2  clusters-3  clusters-4 clusters-5  clusters-6  clusters-7  clusters-8  clusters-9  data

 

正确安装。


 

转载于:https://www.cnblogs.com/jsunday/p/3868208.html

### 安装 Apache Mahout Apache Mahout 是一种用于构建可扩展机器学习应用程序的开源库。以下是关于如何安装和配置 Mahout 的详细说明: #### 系统环境准备 为了成功安装和运行 Mahout,需要先准备好以下依赖项: - Java Development Kit (JDK),建议使用 JDK 8 或更高版本[^1]。 - Maven 构建工具,用于管理项目的依赖关系并编译源码[^2]。 - Hadoop 或 Spark(视需求而定)。如果计划在分布式环境中运行 Mahout,则需预先安装这些框架之一。 #### 下载解压 可以从官方 Apache 存储库下载最新稳定版的 Mahout 发行包。访问官网链接获取二进制分发文件或者克隆 Git 仓库以获得源代码形式的产品[^3]。 ```bash wget https://downloads.apache.org/mahout/MAHOUT_VERSION/apache-mahout-distribution-MAHOUT_VERSION.tar.gz tar -xzvf apache-mahout-distribution-MAHOUT_VERSION.tar.gz cd apache-mahout-distribution-MAHOUT_VERSION/ ``` 上述命令会将指定版本号 `MAHOUT_VERSION` 对应的压缩包提取至本地目录下[^4]。 #### 配置环境变量 虽然 Mahout 自身并无统一全局配置文件,但仍推荐设置一些必要的环境变量以便于后续操作顺畅无阻: ```bash export MAHOUT_HOME=/path/to/your/mahout/directory export PATH=$PATH:$MAHOUT_HOME/bin ``` 这样做的好处在于可以直接调用 bin 文件夹内的脚本而不必每次都指明完整路径[^5]。 #### 测试安装是否成功 完成以上步骤后可以通过执行简单测试案例验证整个流程是否正常工作。比如尝试运行内置 KMeans 聚类例子来确认功能可用性: ```bash mahout kmeans --input input_path --output output_path --clusters cluster_count --maxIter max_iterations_number ``` 此命令利用 K-Means 方法对给定输入数据集进行划分,并保存结果到目标地址处。 --- ### 注意事项 由于引用材料并未提及具体版本间的差异,请务必参照所选发行版附带文档进一步调整适配策略。此外考虑到技术演进速度较快,部分特性可能已被废弃或替代,因此强烈鼓励查阅最新的用户指南和技术博客补充信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值