大数据技术之Hadoop(MapReduce)

最新推荐文章于 2023-02-08 06:44:04 发布

原创

最新推荐文章于 2023-02-08 06:44:04 发布 · 576 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#MapReduce

本文详细介绍了MapReduce的概念、优缺点、核心思想及进程，解析了官方WordCount案例，探讨了MapReduce编程规范，并深入讲解了Hadoop序列化的重要性、自定义bean对象序列化实现，最后剖析了MapReduce框架的InputFormat数据输入机制和Shuffle过程。

2019/12/30 16:03 周一

一、MapReduce概述

1.1、MapReduce定义

MapReduce是一个分布式运算程序的编程框架，是用户开发"基于Hadoop的数据分析应用"的核心框架。

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

1.2 、MapReduce优缺点

**MapReduce优缺点**
优点	①MapReduce易于编程
	②良好的扩展性
	③高容错性
	④适合PB级以上海量数据的离线处理
缺点	①不擅长实时计算
	②不擅长流式计算
	③不擅长DAG(有向图)计算

1.3、MapReduce核心思想

①分布式的运算程序往往需要分成至少2个阶段

②第一个阶段的MapTask并发实例，完全并行运行，互不相干。

③第二个阶段的Reduce并发实例互不相干，但是他们的数据依赖上一阶段的所有MapTask并发案例的输出。

④MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。