| 2019/12/30 16:03 周一 |
一、MapReduce概述
1.1、MapReduce定义
MapReduce是一个分布式运算程序的编程框架,是用户开发"基于Hadoop的数据分析应用"的核心框架。
MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。
1.2 、MapReduce优缺点
| 优点 | ①MapReduce易于编程 |
| ②良好的扩展性 | |
| ③高容错性 | |
| ④适合PB级以上海量数据的离线处理 | |
| 缺点 | ①不擅长实时计算 |
| ②不擅长流式计算 | |
| ③不擅长DAG(有向图)计算 |
1.3、MapReduce核心思想
①分布式的运算程序往往需要分成至少2个阶段
②第一个阶段的MapTask并发实例,完全并行运行,互不相干。
③第二个阶段的Reduce并发实例互不相干,但是他们的数据依赖上一阶段的所有MapTask并发案例的输出。
④MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。
1.4、MapReduce进程
一个完整的MapReduce程序在分布式运行时有三类实例进程:
①MrAppMaster:负责整个程序的过程调度及状态协调。
②MapTask:负责Map阶段的整个数据处理流程。
③ReduceTask:负责Reduce阶段的整个数据处理流程。
1.5、官方WordCount源码
采用反编译工具反编译源码,发现WordCount案例有Map类、Reduce类和驱动类我。且数据的类型是Hadopo自身封装的序列化类型。
1.6、常用数据序列化类型
| Java类型 | Hadoop序列化类型 |
|---|---|
| Boolean | BooleanWritable |
| Byte | ByteWritable |
| Int | IntWritable |
| Float | FloatWritable |
| Long | LongWritable |

本文详细介绍了MapReduce的概念、优缺点、核心思想及进程,解析了官方WordCount案例,探讨了MapReduce编程规范,并深入讲解了Hadoop序列化的重要性、自定义bean对象序列化实现,最后剖析了MapReduce框架的InputFormat数据输入机制和Shuffle过程。
最低0.47元/天 解锁文章
877

被折叠的 条评论
为什么被折叠?



