Mapreduce的shuffle过程详解

MapReduce的shuffle过程可细分为两个过程:

  • Map端:
    在这里插入图片描述
  1. 客户端提交Job任务后,经过一系列资源分配启动MapTask后,各个MapTask就会去HDFS通过InPutFormat拿到数据,进入MapTask任务。
  2. 数据经过MapTask后会先根据Partitioner进行分区。
  3. 数据经过分区后就会进入环形缓冲区,环形缓冲区大小默认为100M,也可以通过mapred-site.xml文件进行配置,当数据达到80%的时候,环形缓冲区的数据就会发生溢出,溢出的同时也会对key进行快速排序。
  4. 当所有的数据都溢出完之后,所有的溢出文件就会被合并成一个文件,在合并的同时,也会对key进行排序,算法采用归并排序,最后每个MapTask对应一个文件。
  • Reduce端:
    在这里插入图片描述
  1. ReduceTask启动之后,各个ReduceTask就会去各个MapTask处理完成之后的文件中拉取自己对应分区的数据,拉取回来的数据会先放到内存中,内存不够用的话就会放在磁盘。
  2. 当所有的数据都拉取回来后,就会把所有的文件进行合并,合并过程会对key就行排序,算法采用归并排序。
  3. 当所有数据都合并完就进入ReduceTask进行Reduce逻辑处理了,处理完之后就会调用OutPutFormat把结果写入文件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值