运行Hadoop0.20.203例子的一般流程

最新推荐文章于 2025-11-08 20:58:58 发布

原创最新推荐文章于 2025-11-08 20:58:58 发布 · 900 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hdfs #hadoop #ubuntu #linux #dfs

Hadoop开发专栏收录该内容

8 篇文章

订阅专栏

本文介绍了使用Hadoop进行数据处理的具体步骤，包括格式化nameNode、启动集群、上传文件到HDFS、运行WordCount示例并查看结果等关键操作。

运行Hadoop例子的一般流程：

Linux命令如下：

1.格式化nameNode

$ bin/hadoop namenode -format

2.启动集群：

$ bin/start-all.sh

3. 将已存在于Ubuntu文件系统中的输入文件放到 HDFS 文件系统的/home/testin目录下(这个文件目录在Ubuntu文件系统中找不到，因为它是存在于HDFS系统中的)
$ bin/hadoop dfs -put  /usr/test.txt  /home/testin

4.运行jar包，wordcount为例子名，后面的两个目录分别为HDFS系统的存放统计文件的输入目录，以及结果的存放目录，后者不需要提前创建。$ bin/hadoop jar hadoop-examples-*.jar wordcount /home/testin /home/testout
【bin/hadoop fs -rm(r) 可以删除hdfs上的文件(夹)多次运算时，要手动删除输出目录，或者输入不同的文件夹名】

5.查看计算结果，其中包含3个文件
$ bin/hadoop fs -ls /home/testout

6.我们的计算结果在part-r-00000文件中，查看文件内容
$ bin/hadoop fs -cat /home/testout/part-r-00000

7.结束，记得关闭集群：
$ bin/stop-all.sh