第十课记录 MapReduce编程模型与案例


1) 查询 hadoop 进程是否启动

#jps

2) 启动 hadoop 程序   

#start-all.sh
        (1) 首先启动 namenode 
        (2) 再启动 datanode
        (3) 再启动 secodarynamenode (注意: secodarynamenode与namenode没有半毛线的关系)


3) 再检查一下hadoop当前模式是不是安全模式

#hdfs dfsadmin -safemode get 
        输出结果如: Safe mode is OFF  (因为Hadoop在安全模式环境下,它是只读的)

4) 查看一个hdfs上的文本文件内容,如:

#hdfs dfs -cat /data/data.txt
    
        内容如下:
                 I love Beijing
                 I love China
                 Beijing is the capital of China
 

5) 在此需要用到MapReduce的一个Examples的官方例子来计算data.txt

#cd /root/training/hadoop-2.4.1/share/hadoop/mapreduce
#hadoop jar hadoop-mapreduce-examples-2.4.1.jar

        结果: 为当前examples的jar包的所有功能支持


#hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount

        结果: Usage: wordcount <in> <out>


#hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /data/data.txt /output/wcdata
        结果: 
                在没有分区的情况下,默认是1个分区:
                        17/08/30 13:55:12 INFO mapreduce.Job:  map 0% reduce 0%
                        17/08/30 13:55:20 INFO mapreduce.Job:  map 100% reduce 0%
                        17/08/30 13:55:28 INFO mapreduce.Job:  map 100% reduce 100%
                如果有多个分区: 如3个分区 ------> 输出文件: 3个
                        17/08/30 13:55:12 INFO mapreduce.Job:  map 0% reduce 0%
                                                                                            map 100% reduce 33%
                                                                                            map 100% reduce 67%
                        17/08/30 13:55:28 INFO mapreduce.Job:  map 100% reduce 100%

        此时开始处理数据,可通过YARN平台来监控运行情况
        http://localhost:8080/cluster



#hdfs dfs -ls /output/1
  结果:
   Found 2 items
   -rw-r--r--   1 root supergroup          0 2017-08-30 13:55 /output/1/_SUCCESS
   -rw-r--r--   1 root supergroup         55 2017-08-30 13:55 /output/1/part-r-00000

#hdfs dfs -cat /output/1/part-r-00000
  结果:特点----->排序 (默认的排序规则: 1、字符串按照字典顺序  2、数字升序), 可以自定义排序规则(比较器)
   Beijing 2
   China   2
   I       2
   capital 1
   is      1
   love    2
   of      1

   the     1





6) 重要: WordCount单词计数数据的流动过程(数据如何被处理的?)

<a.jpg>

  非常重要:  开发一个MR程序的之前,一定一定一定要画图,分析数据的流动过程(数据处理的过程)



















评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值