大数据之-Hadoop3.x_MapReduce_ReduceTask工作机制&并行度---大数据之hadoop3.x工作笔记0125

本文详细介绍了Hadoop3.x中MapReduce的ReduceTask工作机制,包括数据拉取、合并排序和Reduce阶段。ReduceTask的并行度可设置,通过实验发现设置为16时处理时间最短。根据集群性能和任务需求选择合适的ReduceTask数量,处理数据倾斜问题,并讨论全局排序与汇总场景下的设置策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

然后我们继续看一下maptask的工作机制,这个前面也有提过了,

可以看到左边是maptask处理完的数据,然后到了reduceTask阶段,会首先把数据

拉取过来当然,是按照分区拉取的对吧.这是copy阶段

 

数据拿过来以后,对数据进行合并归并排序,可以看到,不同maptask中的,分区0,会给弄到一个

reduceTask中去,合并排序,同理,分区1,会弄到一个reduceTask2中....

这个阶段是sort阶段.

 

归并排序后的数据,同样的key,会一块输入到reducer中去,处理,然后利用outputformat,

把数据结果输出到文件,这个过程就是reduce阶段了.

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

添柴程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值