1、Mahout是什么?
Mahout是一个算法库,集成了很多算法。
Apache Mahout 是 Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开
发人员更加方便快捷地创建智能应用程序。
Mahout项目目前已经有了多个公共发行版本。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。
通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到Hadoop集群。
Mahout 的创始人 Grant Ingersoll 介绍了机器学习的基本概念,并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。
2、Mahout是用来干嘛的?
2.1 推荐引擎
服务商或网站会根据你过去的行为为你推荐书籍、电影或文章。
2.2 聚类
Google news使用聚类技术通过标题把新闻文章进行分组,从而按照逻辑线索来显示新闻,而并非给出
所有新闻的原始列表。
2.3 分类
雅虎邮箱基于用户以前对正常邮件和垃圾邮件的报告,以及电子邮件自身的特征,来判别到来的消息是否是垃圾邮件。
3、安装
在安装之前需要配置hadoop伪分布式环境
ssh
jdk
hadoop
3.1 下载Mahout
http://archive.apache.org/dist/mahout/
3.2 解压
#注意你下载的mahout版本,此处是apache-mahout-distribution-0.12.0
sudo tar -zxvf ~/Desktop/apache-mahout-distribution-0.12.0.tar.gz -C /usr/local/
sudo mv ./apache-mahout-distribution-0.12.0/ ./mahout
3.3 配置环境变量
3.3.1配置Mahout环境变量
#set mahout environment
export MAHOUT_HOME=/usr/local/mahout
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
3.3.2配置Mahout所需的Hadoop环境变量
#set hadoop environment
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_HOME_WARN_SUPPRESS=not_null
3.4验证Mahout是否安装成功: 执行命令mahout。若列出一些算法,则安装成功;
<