Hadoop Federation + HA 搭建（三） – wordCount测试

最新推荐文章于 2025-12-31 09:55:23 发布

原创最新推荐文章于 2025-12-31 09:55:23 发布 · 398 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #wordCount

大数据-hadoop 专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍Hadoop 2环境下HDFS文件上传操作及Yarn上的WordCount任务执行过程。从Hadoop环境搭建到具体命令使用，再到Yarn任务监控，全面解析Hadoop Federation、HA和Yarn的配置与应用。

一. hadoop环境搭建完毕，现在可以对hdfs进行操作

1 .上传文件到hdfs文件系统

#创建一个hive文件夹
[root@wpixel01 www]# hadoop fs -mkdir /hive
#将当前目录的文件上传到hdfs文件系统中的hive目录下
[root@wpixel01 www]# hadoop fs -put hadoop-2.8.1.tar.gz /hive
#ls查看hdfs文件系统文件列表
[root@wpixel01 www]# hadoop fs -ls /hive                     
Found 1 items
-rw-r--r--   3 root supergroup   35042811 2018-01-28 15:55 /hive/zookeeper-3.4.10.tar.gz
#这里要主要：
#如果这里的hive文件夹之前没有创建，那么上传文件到hdfs文件系统的时候，会将文件名变成hive
#例如：hive文件夹下没有创建test文件夹，会将上传的文件重命名
[root@wpixel01 www]# hadoop fs -put hadoop-2.8.1.tar.gz /hive/test
#这个test就是一个文件，可以从第一列的“-“看出
[root@wpixel01 www]# hadoop fs -ls /hive
Found 2 items
-rw-r--r--   3 root supergroup  424555111 2018-01-28 16:53 /hive/test
-rw-r--r--   3 root supergroup   35042811 2018-01-28 15:55 /hive/zookeeper-3.4.10.tar.gz

通过web页面查看
这里写图片描述
2 .上传文件到指定的hdfs文件系统集群（ns1集群和ns2集群）

#hadoop fs -put [文件名] hdfs://[集群]/[目录或文件名]
[root@wpixel01 www]# hadoop fs -put hadoop-2.8.1.tar.gz hdfs://ns1/hbase
[root@wpixel01 www]# hadoop fs -put hadoop-2.8.1.tar.gz hdfs://ns2/hbase

web页面查看
这里写图片描述

二 .Yarn测试 wordCount

#jar包在hadoop-2.8.1/share/hadoop/mapreduce/目录下
[root@wpixel01 www]# cd hadoop-2.8.1/share/hadoop/mapreduce/
[root@wpixel01 mapreduce]# ll
total 5084
-rw-rw-r--. 1 500 500  562906 Jun  2  2017 hadoop-mapreduce-client-app-2.8.1.jar
-rw-rw-r--. 1 500 500  782746 Jun  2  2017 hadoop-mapreduce-client-common-2.8.1.jar
-rw-rw-r--. 1 500 500 1571185 Jun  2  2017 hadoop-mapreduce-client-core-2.8.1.jar
-rw-rw-r--. 1 500 500  195006 Jun  2  2017 hadoop-mapreduce-client-hs-2.8.1.jar
-rw-rw-r--. 1 500 500   31539 Jun  2  2017 hadoop-mapreduce-client-hs-plugins-2.8.1.jar
-rw-rw-r--. 1 500 500   67004 Jun  2  2017 hadoop-mapreduce-client-jobclient-2.8.1.jar
-rw-rw-r--. 1 500 500 1587163 Jun  2  2017 hadoop-mapreduce-client-jobclient-2.8.1-tests.jar
-rw-rw-r--. 1 500 500   75501 Jun  2  2017 hadoop-mapreduce-client-shuffle-2.8.1.jar
-rw-rw-r--. 1 500 500  301938 Jun  2  2017 hadoop-mapreduce-examples-2.8.1.jar
drwxrwxr-x. 2 500 500    4096 Jun  2  2017 jdiff
drwxrwxr-x. 2 500 500    4096 Jun  2  2017 lib
drwxrwxr-x. 2 500 500      30 Jun  2  2017 lib-examples
drwxrwxr-x. 2 500 500    4096 Jun  2  2017 sources

上传需要统计的文件wordCount.txt

#文件内容
[root@wpixel01 www]# cat wordCount.txt 
hadoop contos windows
contos zojirushi zare nike
adidas hadoop my windows google
google baidu zojirushi
#上传到ns1集群的/txt目录
[root@wpixel01 www]# hadoop fs -put wordCount.txt hdfs://ns1/txt/wordCount
#运行测试程序
[root@wpixel01 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.8.1.jar wordcount /txt/wordCount /count
#这里是yarn计算的基本信息
18/01/28 17:43:28 INFO input.FileInputFormat: Total input files to process : 1
18/01/28 17:43:28 INFO mapreduce.JobSubmitter: number of splits:1
18/01/28 17:43:29 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1517156134219_0001
18/01/28 17:43:31 INFO impl.YarnClientImpl: Submitted application application_1517156134219_0001
18/01/28 17:43:31 INFO mapreduce.Job: The url to track the job: http://wpixel03:8088/proxy/application_1517156134219_0001/
18/01/28 17:43:31 INFO mapreduce.Job: Running job: job_1517156134219_0001
18/01/28 17:44:35 INFO mapreduce.Job: Job job_1517156134219_0001 running in uber mode : false
18/01/28 17:44:35 INFO mapreduce.Job:  map 0% reduce 0%
18/01/28 17:44:50 INFO mapreduce.Job:  map 100% reduce 0%
18/01/28 17:45:01 INFO mapreduce.Job:  map 100% reduce 100%
18/01/28 17:45:03 INFO mapreduce.Job: Job job_1517156134219_0001 completed successfully

yarn的运行可以在8088端口看到，正在运行时state状态为RUNNING
这里写图片描述
查看yarn计算的结果

[root@wpixel01 www]# hadoop fs -ls /count/ 
Found 2 items
-rw-r--r--   3 root supergroup          0 2018-01-28 17:45 /count/_SUCCESS 这是程序计算的状态，表示计算成功
-rw-r--r--   3 root supergroup         85 2018-01-28 17:45 /count/part-r-00000 真正的结果在这个文件里
[root@wpixel01 www]# hadoop fs -cat /count/part-r-00000 
#单词     在文本中出现的次数
adidas          1
baidu           1
contos          2
google          2
hadoop          2
my              1
nike            1
windows         2
zare            1
zojirushi       2