hadoop2.8运行自带的Wordcount

本文详细介绍如何在Hadoop完全分布式集群环境下搭建环境并运行WordCount程序,包括文件上传、程序执行及结果查看等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

环境搭建见上一章:centos7+hadoop2.8.0+VMware搭建完全分布式集群

步骤

①首先在master虚拟机本地某一个目录下创建一个文件夹file,用来存储将要上传到HDFS的文件

我是在/opt/hadoop路径下创建的文件夹file


②接着进入file文件夹,然后创建两个文本文件file1.txt和file2.txt,并输入内容


③用hadoop dfs命令在HDFS上创建用来接收本地文件的文件夹input


④将刚才在本地创建的两个文件上传到HDFS的input中(此前要关闭所有节点的防火墙,不然会出错


⑤现在已经将文件上传到HDFS上了,接下来就要用hadoop自带的Wordcount程序对其进行统计

首先进入到Wordcount程序所在目录(找自己的hadoop的安装目录


执行命令运行Wordcount程序,并将结果输出到/output目录下(输出目录自动生成,不可提前创建


⑥上面说明job已经成功运行。接下来看输出结果。先查看/output目录下新生成的文件,我们的统计结果在part-r-00000文件中。



至此,第一个hadoop自带的Wordcount程序成功运行!从搭建环境到运行第一个程序遇到了很多问题,不过最后通过前人的经验都解决了!这也给我带来了一定的自信,加油,坚持下去!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值