Hadoop词频统计,mapreduce,怎么做一个自己的wordcount?

本文档详细介绍了如何初次体验MapReduce,通过Hadoop统计日志源文件中的单词数量。首先,通过创建java项目,导入必要的jar包,并实现Mapper和Reducer类。然后,打包项目为jar文件,并在开启Hadoop和YARN的情况下,将源文件上传到HDFS,运行jar文件,最终在/wcresult02目录中查看结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MapReduce初次体验

使用hadoop统计日源文件中的单词个数

1 创建一个数据源 message.txt
2 开启hadoop
>> start-dfs.sh
>> start-yarn.sh
测试开启是否成功:>>输入jps查看进程
3 把数据源 message.txt上传到linux上

在这里插入图片描述
4 在/usr/local/hadoop/share/hadoop/mapreduce目录下 通过hadoop的jar命令 运行wordcount类

cd /usr/local/hadoop/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /message.txt /wcresult
注意1:hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /message.txt /wcresult
运行hadoop-mapreduce-examples-2.7.3.jar包中wordcount 的类 数据源来源于/message.txt 结果数据会存放到/wcresult
注意2:运行hadoop jar命令时 位置必须是: /usr/local/hadoop/share/hadoop/mapreduce
注意3:目录/wcresult会被jar命令自动创建 不能存在(报错)
注意4:运行前开启yarn

创建一个自己的wordcount

1创建java项目

2导入jar包:并build path

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3 创建Map类继承类Mapper

在这里插入图片描述
在这里插入图片描述

4 创建Reduce类继承Reducer

在这里插入图片描述

5 创建主类:

在这里插入图片描述

6 打包项目为jar文件

6.1 选择打包类型jar

在这里插入图片描述

6.2 选择jar文件名字和位置

在这里插入图片描述

6.3 选择jar文件运行的主类(main方法所在的类)

在这里插入图片描述

6.4 查看桌面有jar文件生成

在这里插入图片描述

7: 运行jar

7.1 开启hadoop和yarn

           >>start-dfs.sh
           >>start-yarn.sh

7.2 在/root下创建源文件message.txt 并编辑内容

            >> touch  /root/message.txt
            >>vi  /root/message.txt

7.3 把源文件上传到hdfs的根目录下

            >> hadoop  fs -put  /root/message.txt  /

7.4 把jar文件上传到/root下

7.5 运行jar文件 并指定源文件是hdfs根目录下的message.txt 目的目录是/wcresult02

            >> hadoop  jar  WCAPP.jar   /message.txt   /wcresult02

8:查看结果 在hadoop的/wcresult02/part-r-00000文件中

            >> hadoop fs -cat /wcresult02/part-r-00000

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值