mr内部处理数据流程

  1. 根据输入路径中的文件个数和大小计算任务切片
  2. 输出看k,v
  3. 调用map方法,判断是否又k,v,有几个实行几次
  4. 在map处理数据,在写出数据到缓冲区MapOutBuffer,里面进行hashcode,但可能时负的 所以进入HashPartitoner进行处理
  5. 缓存到数组中 ,环形数组,进行快排
  6. 数组不写满,到80%,溢出器溢出,按分区编号溢出(0号区,1号区),至少溢出一次
  7. 将溢出的相同的区号合并(Merger归并排序)
  8. 启动reducer0和1, map端提供了shuffle服务
    分发,reducer通过Fetcher拉取自己的任务
  9. 将拉取的多端数据合并
  10. 聚合统计 ,相邻的两个k是否时同一个k,进入比较器分组(GroupingComparetor)
  11. 开始调用reducer方法,有几个key调用几次
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值