mapreduce的shuffle,partition,combine

shuffle:

是描述着数据从map端传输到reduce端的过程,而且我们知道的是hadoop的集群环境中,大部分map task和reduce
task是在不同的node上执行,主要的开销是网络开销和磁盘IO开销,因此shuffle的主要作用相当于是

1.完整的从map task端传输到reduce task端。

2.跨节点传输数据时,尽可能减少对带宽的消耗.(注意是reduce执行的时候去拉取map端的结果)

3.减少磁盘IO开销对task的影响。

shuffle的详细:http://blog.youkuaiyun.com/silentwolfyh/article/details/50890926

Partition:

Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求: 

1)均衡负载,尽量的将工作均匀的分配给不同的reduce。

2)效率,分配速度一定要快。

重定向mapper的输出,根据key来决定mapper应该讲k,v对输出给谁,默认采用的hash
key来实现,也可以根据自己的需要来实现。
Partition的详细: http://blog.youkuaiyun.com/silentwolfyh/article/details/50894860

combiner:

相当于本地的reduce,在分发mapper的结果之前做一下本地的reduce,比如说wordcount程序,单词“a”出现了500次,存储并洗牌一次(“a”,500)键值对比许多次(“a”,1)要高效。

shuffle的详细:http://blog.youkuaiyun.com/silentwolfyh/article/details/50894825

北京小辉微信公众号

在这里插入图片描述

大数据资料分享请关注
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辉哥大数据

你的鼓舞将是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值