一. hadoop环境搭建完毕,现在可以对hdfs进行操作
1 .上传文件到hdfs文件系统
#创建一个hive文件夹
[root@wpixel01 www]# hadoop fs -mkdir /hive
#将当前目录的文件上传到hdfs文件系统中的hive目录下
[root@wpixel01 www]# hadoop fs -put hadoop-2.8.1.tar.gz /hive
#ls查看hdfs文件系统文件列表
[root@wpixel01 www]# hadoop fs -ls /hive
Found 1 items
-rw-r--r-- 3 root supergroup 35042811 2018-01-28 15:55 /hive/zookeeper-3.4.10.tar.gz
#这里要主要:
#如果这里的hive文件夹之前没有创建,那么上传文件到hdfs文件系统的时候,会将文件名变成hive
#例如:hive文件夹下没有创建test文件夹,会将上传的文件重命名
[root@wpixel01 www]# hadoop fs -put hadoop-2.8.1.tar.gz /hive/test
#这个test就是一个文件,可以从第一列的“-“看出
[root@wpixel01 www]# hadoop fs -ls /hive
Found 2 items
-rw-r--r-- 3 root supergroup 424555111 2018-01-28 16:53 /hive/test
-rw-r--r-- 3 root supergroup 35042811 2018-01-28 15:55 /hive/zookeeper-3.4.10.tar.gz
通过web页面查看
2 .上传文件到指定的hdfs文件系统集群(ns1集群和ns2集群)
#hadoop fs -put [文件名] hdfs://[集群]/[目录或文件名]
[root@wpixel01 www]# hadoop fs -put hadoop-2.8.1.tar.gz hdfs://ns1/hbase
[root@wpixel01 www]# hadoop fs -put hadoop-2.8.1.tar.gz hdfs://ns2/hbase
web页面查看
二 .Yarn测试 wordCount
#jar包在hadoop-2.8.1/share/hadoop/mapreduce/目录下
[root@wpixel01 www]# cd hadoop-2.8.1/share/hadoop/mapreduce/
[root@wpixel01 mapreduce]# ll
total 5084
-rw-rw-r--. 1 500 500 562906 Jun 2 2017 hadoop-mapreduce-client-app-2.8.1.jar
-rw-rw-r--. 1 500 500 782746 Jun 2 2017 hadoop-mapreduce-client-common-2.8.1.jar
-rw-rw-r--. 1 500 500 1571185 Jun 2 2017 hadoop-mapreduce-client-core-2.8.1.jar
-rw-rw-r--. 1 500 500 195006 Jun 2 2017 hadoop-mapreduce-client-hs-2.8.1.jar
-rw-rw-r--. 1 500 500 31539 Jun 2 2017 hadoop-mapreduce-client-hs-plugins-2.8.1.jar
-rw-rw-r--. 1 500 500 67004 Jun 2 2017 hadoop-mapreduce-client-jobclient-2.8.1.jar
-rw-rw-r--. 1 500 500 1587163 Jun 2 2017 hadoop-mapreduce-client-jobclient-2.8.1-tests.jar
-rw-rw-r--. 1 500 500 75501 Jun 2 2017 hadoop-mapreduce-client-shuffle-2.8.1.jar
-rw-rw-r--. 1 500 500 301938 Jun 2 2017 hadoop-mapreduce-examples-2.8.1.jar
drwxrwxr-x. 2 500 500 4096 Jun 2 2017 jdiff
drwxrwxr-x. 2 500 500 4096 Jun 2 2017 lib
drwxrwxr-x. 2 500 500 30 Jun 2 2017 lib-examples
drwxrwxr-x. 2 500 500 4096 Jun 2 2017 sources
上传需要统计的文件wordCount.txt
#文件内容
[root@wpixel01 www]# cat wordCount.txt
hadoop contos windows
contos zojirushi zare nike
adidas hadoop my windows google
google baidu zojirushi
#上传到ns1集群的/txt目录
[root@wpixel01 www]# hadoop fs -put wordCount.txt hdfs://ns1/txt/wordCount
#运行测试程序
[root@wpixel01 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.8.1.jar wordcount /txt/wordCount /count
#这里是yarn计算的基本信息
18/01/28 17:43:28 INFO input.FileInputFormat: Total input files to process : 1
18/01/28 17:43:28 INFO mapreduce.JobSubmitter: number of splits:1
18/01/28 17:43:29 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1517156134219_0001
18/01/28 17:43:31 INFO impl.YarnClientImpl: Submitted application application_1517156134219_0001
18/01/28 17:43:31 INFO mapreduce.Job: The url to track the job: http://wpixel03:8088/proxy/application_1517156134219_0001/
18/01/28 17:43:31 INFO mapreduce.Job: Running job: job_1517156134219_0001
18/01/28 17:44:35 INFO mapreduce.Job: Job job_1517156134219_0001 running in uber mode : false
18/01/28 17:44:35 INFO mapreduce.Job: map 0% reduce 0%
18/01/28 17:44:50 INFO mapreduce.Job: map 100% reduce 0%
18/01/28 17:45:01 INFO mapreduce.Job: map 100% reduce 100%
18/01/28 17:45:03 INFO mapreduce.Job: Job job_1517156134219_0001 completed successfully
yarn的运行可以在8088端口看到,正在运行时state状态为RUNNING
查看yarn计算的结果
[root@wpixel01 www]# hadoop fs -ls /count/
Found 2 items
-rw-r--r-- 3 root supergroup 0 2018-01-28 17:45 /count/_SUCCESS 这是程序计算的状态,表示计算成功
-rw-r--r-- 3 root supergroup 85 2018-01-28 17:45 /count/part-r-00000 真正的结果在这个文件里
[root@wpixel01 www]# hadoop fs -cat /count/part-r-00000
#单词 在文本中出现的次数
adidas 1
baidu 1
contos 2
google 2
hadoop 2
my 1
nike 1
windows 2
zare 1
zojirushi 2
总结
Hadoop2中Hadoop Federation、HA、Yarn完全分布式配置已经搭建成功了。
以后会发布整个架构图和解析
电脑跑四台虚拟机也不容易啊,8G内存还是有点吃力的,那么你成功了么。……( ̄∇ ̄)