大数据之Shuffle各流程介绍

本文详细介绍了MapReduce的Shuffle阶段,包括自定义分区、自定义排序、Combiner规约和自定义分组。Shuffle阶段在MapReduce中起到数据清洗作用,通过分区、排序和规约优化数据处理,减少网络传输,并允许用户根据需求进行定制化设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


前言

#博学谷IT学习技术支持#
上篇文章主要介绍了MapReduce的输入和输出以及流程介绍,MapReduce的整个流程大致分为Map阶段、Shuffle阶段和Reduce阶段,本次主要对Shuffle阶段做进一步的梳理。

一、Shuffle简介

shuffle阶段是MapReduce中的一个重要环节,称为数据洗牌节点,MapReduce先经过Map数据拆分阶段,然后再经过shuffle数据清洗阶段,最后再由Redeuce阶段将清洗后的数据进行汇总,Shuffle阶段主要包括分区、排序、Combiner规约和分组。

二、Shuffle中各流程介绍

(一)自定义分区

  • 概述

    1、分区就是将一份数据根据一定的规则分到不同的文件中;
    2、分区的实现的方式为:在Map阶段对K2打标记,标记相同的数据分到同一个区;
    3、如果设置了分区则会有多个文件输出,一个Reduce输出一份文件,相同标记的K2会被同一个Reduce读取,输出到同一份文件中,多个Reduce则会生成多份文件;
    4、Partition分区就是在Map结束之后,根据Key值不同,给每个Key打上标签,每个Reduce再分别处理不同标签的Key值
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

「已注销」

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值