1) 查询 hadoop 进程是否启动
#jps
2) 启动 hadoop 程序
#start-all.sh
(1) 首先启动 namenode
(2) 再启动 datanode
(3) 再启动 secodarynamenode (注意: secodarynamenode与namenode没有半毛线的关系)
3) 再检查一下hadoop当前模式是不是安全模式
#hdfs dfsadmin -safemode get
输出结果如: Safe mode is OFF (因为Hadoop在安全模式环境下,它是只读的)
4) 查看一个hdfs上的文本文件内容,如:
#hdfs dfs -cat /data/data.txt
内容如下:
I love Beijing
I love China
Beijing is the capital of China
5) 在此需要用到MapReduce的一个Examples的官方例子来计算data.txt
#cd /root/training/hadoop-2.4.1/share/hadoop/mapreduce
#hadoop jar hadoop-mapreduce-examples-2.4.1.jar
结果: 为当前examples的jar包的所有功能支持
#hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount
结果: Usage: wordcount <in> <out>
#hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /data/data.txt /output/wcdata
结果:
在没有分区的情况下,默认是1个分区:
17/08/30 13:55:12 INFO mapreduce.Job: map 0% reduce 0%
17/08/30 13:55:20 INFO mapreduce.Job: map 100% reduce 0%
17/08/30 13:55:28 INFO mapreduce.Job: map 100% reduce 100%
如果有多个分区: 如3个分区 ------> 输出文件: 3个
17/08/30 13:55:12 INFO mapreduce.Job: map 0% reduce 0%
map 100% reduce 33%
map 100% reduce 67%
17/08/30 13:55:28 INFO mapreduce.Job: map 100% reduce 100%
此时开始处理数据,可通过YARN平台来监控运行情况
http://localhost:8080/cluster
#hdfs dfs -ls /output/1
结果:
Found 2 items
-rw-r--r-- 1 root supergroup 0 2017-08-30 13:55 /output/1/_SUCCESS
-rw-r--r-- 1 root supergroup 55 2017-08-30 13:55 /output/1/part-r-00000
#hdfs dfs -cat /output/1/part-r-00000
结果:特点----->排序 (默认的排序规则: 1、字符串按照字典顺序 2、数字升序), 可以自定义排序规则(比较器)
Beijing 2
China 2
I 2
capital 1
is 1
love 2
of 1
the 1
6) 重要: WordCount单词计数数据的流动过程(数据如何被处理的?)
<a.jpg>非常重要: 开发一个MR程序的之前,一定一定一定要画图,分析数据的流动过程(数据处理的过程)