hadoop2.5.2 mahout0.10.1 测试文本分类器

本文详细介绍了如何在Hadoop 2.5.2环境下,使用Mahout 0.10.1进行中文文本分类,包括数据上传、分词程序添加、序列化文件生成、向量文件创建、训练集与测试集划分、模型训练和测试等步骤。在Mahout 0.9 + Hadoop 2.2.0的配置中遇到错误无法解决,故选择了升级版本来完成任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说明:本文是对下面这篇文章的一个更新,下面这篇文章环境采用的是mahout0.9 + hadoop2.2.0,本人的是mahout0.10.1+hadoop2.5.2

--------------------------------------------------------------------------

mahout0.9 + hadoop2.2 中文文本分类实战(上)链接

--------------------------------------------------------------------------

网上大多数的mahout文本分词的例子都是基于hadoop1.x+mahout0.7 或者hadoop2.x+mahout0.9,其中各种坑,着实让人头疼,经过两天的苦战,终于在hadoop2.5.2上运行成功


1、将测试数据上传到hdfs中(数据来源于炼数成金-Hadoop 应用开发实战案例第17节课程)下载地址

先看一下数据 camera computer hosehold mobile MP3每个文件夹里有若干文件,每个文件是一篇文章


上传到hdfs的digital目录中(上传要半个小时左右)

#hadoop fs -mkdir digital
#hadoop fs -put /home/chin/digital/raw/*         digital/


2、安装mahout0.10.1

#wget http://mirror.bit.edu.cn/apache/mahout/0.10.1/apache-mahout-distribution-0.10.1.tar.gz
#tar -xzvf apache-mahout-distribution-0.10.1-src.tar.gz -C /opt/
#ln -s /opt/apache-mahout-distribution-0.10.1 /opt/mahout
#cd /opt/mahout/


3、向mahout-examples-0.10.1-job.jar添加分词程序


默认的mahout是不支持中文分词的,这需要我们把分词程序弄到mahout的jar包中。

这里利用了原作者已经写好的分词程序,先把几个jar包下载下来(mmseg4j-solr-2.2.0.jar mmseg4j-core-1.9.1.jar mmseg4j-analysis-1.9.1.jar)里边包含了作者写好的分词程序,下载

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值