1.简介:
Mahout为推荐引擎提供了一些可扩展的机器学习领域的经典算法实现,可以使开发人员更为快捷的创建智能应用程序。
2.安装:
(1)下载(0.8版本,包含源码):
sudo svn co http://svn.apache.org/repos/asf/mahout/trunk mahout
(2) Maven build(若存在权限问题,则使用chmod进行权限修改):
cd $MAHOUT_HOME sudo mvn install -DskipTests
(3)安装Hadoop:问度娘
(4)检查Mahout是否安装成功:
cd $MAHOUT_HOME/bin ./mahout
一般没有报错就是安装成功了(忘了截图了...),so easy,另若在/etc/profile中设置环境的变量的,则使用source /etc/profile,若没有则手工export HADOOP_HOME与JAVA_HOME。
3.测试Mahout:
(1)下载测试数据:
包含600行60列的一个测试数据
wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data
(2)将数据上传到Hadoop:
hadoop fs -mkdir testdata
hadoop fs -put synthetic_control.data testdata
必须使用该路径,文件会上传到HDFS路径:/user/hadoop/testdata/synthetic_cotrol.data,测试代码已经写死了,所以必须按照此路径作测试数据。
(3)测试各种算法
cd $MAHOUT_HOME/examples/target # canopy hadoop jar mahout-examples-0.8-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job # kmeans hadoop jar mahout-examples-0.8-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
观察输出,其中canopy算法与kmeans算法以后补充。
上述为mahout的安装与案例测试。