hadoop shuffle

最新推荐文章于 2024-07-30 09:56:59 发布

weixin_33806914

最新推荐文章于 2024-07-30 09:56:59 发布

阅读量93

点赞数

CC 4.0 BY-SA版权

文章标签：大数据

原文链接：http://www.cnblogs.com/hustdc/p/8662678.html

Hadoop Shuffle作为MapReduce的核心环节，负责连接Map与Reduce任务。它通过分区和Hash运算确保相同Key的数据分配到同一Reduce任务中处理，有效保障了MapReduce编程模型的正确执行。然而，由于Map任务分布在不同节点上，Shuffle阶段涉及大量跨节点数据传输，成为性能瓶颈。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 hadoop shuffle的地位

hadoop shuffle是map reduce算法的核心，是它连接了多个map和多个reduce，它将map的输出交给reduce作为输入。

2 hadoop shuffle工作在哪里

shuffle工作在map端

3 hadoop shuffle做了什么

它首先对所有的map的输出进行分区，对分区进行编号，来自不同map的具有相同编号的分区交给同一个reduce来处理。

它必须保证一点，来自所有map的相同的key的记录必须要被划分到同一个分区。原因很简单，reduce函数的输入就是一个key，对应该key的所有的values。

可见，是hadoop shuffle保证了mapreduce的编程模型。map只需要把输入分成新的key value即可，而reduce处理的对象是所有的map的输出中同一个key的所有values。

4 hadoop shuffle是怎样实现的

public int getPartition(K2 key, V2 value,
int numReduceTasks) {
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}

对key进行hash保证了，相同的key具有相同的hash值，然后对reduce task数目取模，那么相同的key肯定是有相同的分区id的。这样，所有的map的具有相同key的键值对记录都会被划分到同一个分区中，进而交给同一个reducer。

5 shuffle过程存在的问题

因为map位于不同的机器，所以reducer所在的机器必须要同它们通信才能把所有输入自己的分区数据远程拷贝到本机器上。

这样性能瓶颈就是网络数据的传输。

转载于:https://www.cnblogs.com/hustdc/p/8662678.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。