Spark SQL数据倾斜解决方案

最新推荐文章于 2025-06-29 17:40:15 发布

Johnson8702

最新推荐文章于 2025-06-29 17:40:15 发布

阅读量3.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：大数据 Spark调优文章标签： SparkSQL 数据倾斜

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Johnson8702/article/details/88057928

大数据同时被 2 个专栏收录

18 篇文章

订阅专栏

7 篇文章

订阅专栏

本文详细介绍了SparkSQL中解决数据倾斜的多种策略，包括聚合源数据、过滤倾斜key、提高shuffle并行度、双重groupBy、reducejoin转mapjoin、采样倾斜key单独join及随机key与扩容表。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于Spark都是基于RDD的特性，所以可以用纯RDD的方法，实现和Spark SQL一模一样的功能。

之前在Spark Core中的数据倾斜的七种解决方案，全部都可以直接套用在Spark SQL上。

Spark SQL的数据倾斜解决方案：

聚合源数据：Spark Core和Spark SQL没有任何区别
过滤导致倾斜的key：在sql中用where条件
提高shuffle并行度：groupByKey(1000)，spark.sql.shuffle.partitions（默认是200）
双重groupBy：改写SQL，两次groupBy
reduce join转换为map join：spark.sql.autoBroadcastJoinThreshold（默认是10485760）；可以自己将表做成RDD，自己手动去实现map join；SparkSQL内置的map join，默认如果有一个10M以内的小表，会将该表进行broadcast，然后执行map join；调节这个阈值，比如调节到20M、50M、甚至1G。
采样倾斜key并单独进行join：纯Spark Core的一种方式，sample、filter等算子
随机key与扩容表：Spark SQL+Spark Core

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。