数据倾斜怎么解决

原创于 2024-01-05 09:38:27 发布 · 507 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #hive #大数据 #mapreduce

本文详细探讨了数据倾斜的六种常见原因，包括空值、数据类型差异、大文件、数据膨胀、表连接以及无法减少数据量的情况。提供了解决方案，如转换数据类型、优化SQL逻辑、使用MapJoin和调整reduce内存等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据倾斜主要有以下6种情况：
1：空值引起的数据倾斜
2：数据类型不同引起的数据倾斜
3：不可拆分大文件引起的
4：数据膨胀引起的
5：表连接
6：确实无法减少数据量引起的

1：空值引起的数据倾斜

禁止null参加join操作，不让其参与shuffle
null随机转化成其他值

2：数据类型不同引起的数据倾斜

类型统一转化成string 或者其他

3：不可拆分大文件引起的

调整参数：采用bzip/zip等支持大文件切割的技术，避免文件在一个map任务中

4：数据膨胀引起的

数据膨胀是指任务的输出条数/数据量级比输入条数/数据量级大很多

调整sql逻辑语句
调整参数：hive.job.grouping.set.cardinality 默认值为30，自动控制作业拆解

5：表连接

map端优化，将倾斜的数据转到分布式缓存中，分发到各个Map任务所在节点。在Map阶段完成join操作，即MapJoin，这避免了 Shuffle，从而避免了数据倾斜

MapJoin是Hive的一种优化操作，其适用于小表JOIN大表的场景，由于表的JOIN操作是在Map端且在内存进行的，所以其并不需要启动Reduce任务也就不需要经过shuffle阶段，从而能在一定程度上节省资源提高JOIN效率

6：确实无法减少数据量引起的

reduce端优化，调整reduce运行的内存大小

调整reduce的内存大小使用mapreduce.reduce.memory.mb这个配置

博客等级

码龄6年

12
原创

51
点赞

59
收藏

34
粉丝

关注

私信

热门文章

分类专栏

python职场经验 1篇

上一篇：: python基础：‘ ‘.join(data)时报错处理

下一篇：: HDFS在上传文件时，有一个datanode挂掉怎么办

最新评论

数据倾斜怎么解决
优快云-Ada助手: 恭喜您发布了第10篇博客！您对“数据倾斜怎么解决”这一话题进行了深入探讨，让读者受益匪浅。接下来，建议您可以尝试从不同角度去解决数据倾斜的问题，或者分享一些实际案例和解决方案，这样能够让读者更加全面地了解这个话题。期待您更多精彩的创作！
HDFS在上传文件时，有一个datanode挂掉怎么办
优快云-Ada助手: 恭喜您写了第11篇博客！标题很吸引人，我对HDFS上传文件中遇到datanode挂掉的情况也很感兴趣。不过，在评论之前，我想请教一下您是否已经介绍了HDFS的基本概念和原理？如果还没有的话，我建议您可以在下一篇博客中先简要介绍一下HDFS的工作原理，这样读者们能更好地理解您提到的datanode挂掉的情况下应该如何应对。期待您的下一篇博客！
PyCharm国内源下载包报错：ERROR: Cannot determine archive format of xxx
优快云-Ada助手: 恭喜你写了第8篇博客！对于PyCharm国内源下载包报错的问题，我觉得你可以尝试深入分析具体的错误原因，并找到解决方法分享给大家。或者可以写一些关于PyCharm其他常见问题的解决方案，这样会更加丰富你的博客内容，也能够帮助更多的读者解决实际问题。希望你能够继续坚持创作，加油！
python基础：‘ ‘.join(data)时报错处理
优快云-Ada助手: 恭喜你写了第9篇博客！标题看起来很有趣。在处理' '.join(data)时遇到报错是一个很常见的问题，但我相信你一定能够解决它。我建议你在博客中详细说明这个问题的原因以及如何处理它，这将帮助其他有相同困扰的读者。另外，也许你可以探索一些其他的Python基础知识或者提供一些实用的代码示例，这将使你的博客更加丰富多样。期待你的下一篇博客！再次恭喜你！
SQLyog打开显示连接错误，成功连接后之前的代码消失
冉非然: 怎么办啊

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。