MapReduce的shuffle阶段案例

最新推荐文章于 2024-12-24 19:37:40 发布

原创最新推荐文章于 2024-12-24 19:37:40 发布 · 323 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#MapReduce #shuffle

hadoop 专栏收录该内容

22 篇文章

订阅专栏

本文深入探讨MapReduce的高级特性，包括分区与reduceTask数量调整、排序与序列化机制、以及combiner的使用，旨在优化大数据处理流程，提升网络IO性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce的shuffle阶段案例

1、MapReduce的分区与reduceTask的数量

在MapReduce中，通过我们指定分区，会将同一个分区的数据发送到同一个reduce当中进行处理。
例如我们为了数据的统计，我们可以把一批类似的数据发送到同一个reduce当中去，在同一个reduce当中统计相同类型的数据，就可以实现类似数据的分区，统计等。
说白了就是相同类型的数据，送到一起去处理，在reduce当中默认分区只有1个。
MapReduce当中的分区类图
在这里插入图片描述

分区的案例，只能打成jar包发布到集群上面去运行.

2、MapReduce排序以及序列化

序列化（Serialization）是指把结构化对象转化为字节流。
反序列化（Deserialization）是序列化的逆过程。把字节流转为结构化对象。
当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流
反之当要将接收到或从磁盘读取的字节流转换为对象，就要进行反序列化。
Java 的序列化（Serializable）是一个重量级序列化框架，一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系…），不便于在网络中高效传输；所以，hadoop 自己开发了一套序列化机制（Writable），精简，高效。不用像 java 对象类一样传输多层的父子关系，需要哪个属性就传输哪个属性值，大大的减少网络传输的开销。
Writable是Hadoop的序列化格式，hadoop定义了这样一个Writable接口。一个类要支持可序列化只需实现这个接口即可。
另外Writable有一个子接口是WritableComparable，writableComparable是既可实现序列化，也可以对key进行比较，我们这里可以通过自定义key实现WritableComparable来实现我们的排序功能

3、MapReduce的combiner

每一个 map 都可能会产生大量的本地输出，Combiner 的作用就是对 map 端的输出先做一次合并，以减少在 map 和 reduce 节点之间的数据传输量，以提高网络IO 性能，是 MapReduce 的一种优化手段之一。
combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件
combiner 组件的父类就是 Reducer
combiner 和 reducer 的区别在于运行的位置：
Combiner 是在每一个 maptask 所在的节点运行 Reducer 是接收全局所有 Mapper 的输出结果；
combiner 的意义就是对每一个 maptask 的输出进行局部汇总，以减小网络传输量
具体实现步骤：
1、自定义一个 combiner 继承 Reducer，重写 reduce 方法
2、在 job 中设置： job.setCombinerClass(CustomCombiner.class)

combiner 能够应用的前提是不能影响最终的业务逻辑，而且，combiner 的输出 kv 应该跟 reducer 的输入 kv 类型要对应起来

代码参考：
https://github.com/Fenggm/MapReduceTest