第十课记录 MapReduce编程模型与案例

最新推荐文章于 2025-08-10 21:47:39 发布

转载最新推荐文章于 2025-08-10 21:47:39 发布 · 299 阅读

Hadoop 专栏收录该内容

15 篇文章

订阅专栏

本文介绍了Hadoop的启动及进程检查方法，并通过WordCount示例详细解析了数据处理流程，包括安全模式检查、文件内容查看及MapReduce任务执行。

1) 查询 hadoop 进程是否启动

#jps

2) 启动 hadoop 程序

#start-all.sh

(1) 首先启动 namenode
(2) 再启动 datanode
(3) 再启动 secodarynamenode (注意: secodarynamenode与namenode没有半毛线的关系)

3) 再检查一下hadoop当前模式是不是安全模式

#hdfs dfsadmin -safemode get

输出结果如: Safe mode is OFF (因为Hadoop在安全模式环境下，它是只读的)

4) 查看一个hdfs上的文本文件内容,如:

#hdfs dfs -cat /data/data.txt

  内容如下:
      I love Beijing
      I love China
      Beijing is the capital of China

5) 在此需要用到MapReduce的一个Examples的官方例子来计算data.txt

#cd /root/training/hadoop-2.4.1/share/hadoop/mapreduce
#hadoop jar hadoop-mapreduce-examples-2.4.1.jar

结果: 为当前examples的jar包的所有功能支持

#hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount

结果: Usage: wordcount <in> <out>

#hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /data/data.txt /output/wcdata

  结果:
      在没有分区的情况下,默认是1个分区：
          17/08/30 13:55:12 INFO mapreduce.Job: map 0% reduce 0%
          17/08/30 13:55:20 INFO mapreduce.Job: map 100% reduce 0%
          17/08/30 13:55:28 INFO mapreduce.Job: map 100% reduce 100%
      如果有多个分区: 如3个分区 ------> 输出文件: 3个
          17/08/30 13:55:12 INFO mapreduce.Job: map 0% reduce 0%
                                            map 100% reduce 33%
                                       map 100% reduce 67%
          17/08/30 13:55:28 INFO mapreduce.Job: map 100% reduce 100%

  此时开始处理数据，可通过YARN平台来监控运行情况
  http://localhost:8080/cluster

#hdfs dfs -ls /output/1

结果:
Found 2 items
-rw-r--r-- 1 root supergroup 0 2017-08-30 13:55 /output/1/_SUCCESS
-rw-r--r-- 1 root supergroup 55 2017-08-30 13:55 /output/1/part-r-00000