说明:本文是对下面这篇文章的一个更新,下面这篇文章环境采用的是mahout0.9 + hadoop2.2.0,本人的是mahout0.10.1+hadoop2.5.2
--------------------------------------------------------------------------
mahout0.9 + hadoop2.2 中文文本分类实战(上)链接
--------------------------------------------------------------------------
网上大多数的mahout文本分词的例子都是基于hadoop1.x+mahout0.7 或者hadoop2.x+mahout0.9,其中各种坑,着实让人头疼,经过两天的苦战,终于在hadoop2.5.2上运行成功
1、将测试数据上传到hdfs中(数据来源于炼数成金-Hadoop 应用开发实战案例第17节课程)下载地址
先看一下数据 camera computer hosehold mobile MP3每个文件夹里有若干文件,每个文件是一篇文章
上传到hdfs的digital目录中(上传要半个小时左右)
#hadoop fs -mkdir digital
#hadoop fs -put /home/chin/digital/raw/* digital/
2、安装mahout0.10.1
#wget http://mirror.bit.edu.cn/apache/mahout/0.10.1/apache-mahout-distribution-0.10.1.tar.gz
#tar -xzvf apache-mahout-distribution-0.10.1-src.tar.gz -C /opt/
#ln -s /opt/apache-mahout-distribution-0.10.1 /opt/mahout
#cd /opt/mahout/
3、向mahout-examples-0.10.1-job.jar添加分词程序
默认的mahout是不支持中文分词的,这需要我们把分词程序弄到mahout的jar包中。
这里利用了原作者已经写好的分词程序,先把几个jar包下载下来(mmseg4j-solr-2.2.0.jar mmseg4j-core-1.9.1.jar mmseg4j-analysis-1.9.1.jar)里边包含了作者写好的分词程序,下载