运行hadoop2.x自带的wordcount

本文详细介绍了如何使用Hadoop2.x自带的WordCount程序进行文本统计,从创建本地文件到上传至HDFS,再到运行WordCount并解析输出结果,全程实战操作,适合Hadoop初学者快速上手。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

运行hadoop2.x自带的wordcount

(1)首先在master虚拟机本地某一个目录下创建一个文件夹file,用来存储将要上传到HDFS的文件
我是在/opt/hadoop路径下创建的文件夹file
cd /opt/hadoop
mkdir file

(2)接着进入file文件夹,然后创建一个文本文件file1.txt,并输入内容(路径自己随便写)
cd file
vi file1.txt #hello world

(3)用hadoop dfs命令在HDFS上创建用来接收本地文件的文件夹input
hadoop dfs -mkdir /input
hadoop dfs -ls /
hadoop dfs -ls /input

(4)将刚才在本地创建的一个文件上传到HDFS的input中
vi file1.txt #hello world
hadoop dfs -put /opt/hadoop/file/file1.txt /input/01
hadoop dfs -ls /input

(5)现在已经将文件上传到HDFS上了,接下来就要用hadoop自带的Wordcount程序对其进行统计
首先进入到Wordcount程序所在目录(找自己的hadoop的安装目录)
cd /opt/hadoop/share/hadoop//mapreduce/
ll //查看命令,查看当前路径下是否有hadoop-mapreduce-examples-2.7.2.jar包
hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount /input/file1.txt /output/01

执行命令运行Wordcount程序,并将结果输出到/output/01目录下(输出目录自动生成,不可提前创建)
hadoop dfs -ls /output/01 (01作为输入结果的文件,不能提前存在,必须是hdfs自己运行时生成的)

(6)接下来看输出结果,一共生成2个文件,我们的统计结果在part-r-00000文件中。

### 正确配置和运行Hadoop自带WordCount示例程序 #### 准备工作 为了确保能够顺利运行Hadoop自带的`WordCount`示例程序,需先确认环境已正确设置。这包括但不限于Java环境变量、Hadoop安装目录以及集群配置文件等。 #### 文件准备 创建用于测试的数据集并将其上传至HDFS中指定位置作为输入源。假设数据存储于本地磁盘上的某个文本文件内,则可通过如下命令完成此操作: ```bash /usr/local/hadoop/bin/hadoop fs -put /path/to/local/file /input/ ``` 此处`/path/to/local/file`代表待处理文档的实际路径而`/input/`则是目标HDFS目录[^1]。 #### 执行WordCount作业 启动MapReduce任务来分析上述加载进去的内容,具体指令取决于所使用的Hadoop版本号及其部署方式。一般形式如下所示: 对于较新版本(如3.x系列),可以采用这种方式调用JAR包中的预编译类来进行词频统计: ```bash hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /data/input/my_wordcount.txt /data/out/my_wordcount ``` 而对于早期发行版(比如2.x序列),则应参照官方说明适当调整参数选项,例如: ```bash $hadoop jar /home/hadoop/hadoop/share/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output ``` 注意替换实际存在的jar文件全名及相对应的I/O路径[^3]。 重要提示:务必保证输出目录在此之前不存在;否则将会引发错误中断整个流程。如果有必要的话,可提前删除旧有的同名节点或是选取其他未被占用的新地址存放最终结果[^4]。 #### 查看运算成果 一旦成功提交请求之后,等待一段时间直至全部子进程结束为止。最后借助内置工具浏览生成报告里的各项指标详情: ```bash /usr/local/hadoop/bin/hadoop fs -cat /output/part-r-00000 ``` 这里假定默认情况下Reducer阶段产生的唯一片段名为part-r-00000,并且位于先前设定好的终点处[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值