hadoop2.5.2 mahout0.10.1 测试文本分类器

最新推荐文章于 2023-12-27 17:55:35 发布

原创

最新推荐文章于 2023-12-27 17:55:35 发布 · 5.7k 阅读

7 ·

CC 4.0 BY-SA版权

本文详细介绍了如何在Hadoop 2.5.2环境下，使用Mahout 0.10.1进行中文文本分类，包括数据上传、分词程序添加、序列化文件生成、向量文件创建、训练集与测试集划分、模型训练和测试等步骤。在Mahout 0.9 + Hadoop 2.2.0的配置中遇到错误无法解决，故选择了升级版本来完成任务。

说明：本文是对下面这篇文章的一个更新，下面这篇文章环境采用的是mahout0.9 + hadoop2.2.0，本人的是mahout0.10.1+hadoop2.5.2

--------------------------------------------------------------------------

mahout0.9 + hadoop2.2 中文文本分类实战（上）链接

--------------------------------------------------------------------------

网上大多数的mahout文本分词的例子都是基于hadoop1.x+mahout0.7 或者hadoop2.x+mahout0.9，其中各种坑，着实让人头疼，经过两天的苦战，终于在hadoop2.5.2上运行成功

1、将测试数据上传到hdfs中（数据来源于炼数成金-Hadoop 应用开发实战案例第17节课程）下载地址

先看一下数据 camera computer hosehold mobile MP3每个文件夹里有若干文件，每个文件是一篇文章

上传到hdfs的digital目录中(上传要半个小时左右)

#hadoop fs -mkdir digital
#hadoop fs -put /home/chin/digital/raw/*         digital/

2、安装mahout0.10.1

#wget http://mirror.bit.edu.cn/apache/mahout/0.10.1/apache-mahout-distribution-0.10.1.tar.gz
#tar -xzvf apache-mahout-distribution-0.10.1-src.tar.gz -C /opt/
#ln -s /opt/apache-mahout-distribution-0.10.1 /opt/mahout
#cd /opt/mahout/

3、向mahout-examples-0.10.1-job.jar添加分词程序

默认的mahout是不支持中文分词的，这需要我们把分词程序弄到mahout的jar包中。

这里利用了原作者已经写好的分词程序，先把几个jar包下载下来（mmseg4j-solr-2.2.0.jar　mmseg4j-core-1.9.1.jar　mmseg4j-analysis-1.9.1.jar）里边包含了作者写好的分词程序，下载