MapReduce数据倾斜的解决经验

最新推荐文章于 2023-04-02 10:19:55 发布

原创最新推荐文章于 2023-04-02 10:19:55 发布 · 298 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

java 同时被 2 个专栏收录

14 篇文章

订阅专栏

12 篇文章

订阅专栏

本文介绍了数据倾斜的概念及其可能的原因，并提供了几种解决方案，包括调整reduce任务的数量、使用combiner以及自定义partitioner来重新分配key。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据倾斜的意思就是某些key对应的信息条数过多，导致对应reducer的内存溢出。

解决这个问题，要区分一下问题引起的原因。无非是：

由于对数据构成认识不足，导致启动配置资源的不合理
刷量数据的不合理涌入

对于第一种情况，我们可以通过调整reduce的个数，以及reducer的jvm大小来解决。

对于第二种情况，我建议应该先分析数据的倾斜原因，考虑这部分数据生成的原因，是程序错误还是恶意的刷量数据。当然这个工作并不在解决数据倾斜的内容中。

解决的方案比较简单，以时间换空间。通过修改patition的方式更改key的分配方式，让所有的key即能分散，又能达到一定程度的合并，达到数据规模下降的目的。key的生成方式可以采用“加延”的方法，比如，让每个key后面都带上patition的序号，或者带上时间段的某个位。然后通过计算这部分中间结果的方式来获取最后的结果。

简单来说，处理方法的考虑顺序可以这样：

1. 增加reducer个数，以及提高reduce的内存分配

2. 使用combiner

3. 使用自定义的partitioner

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。