Spark SQL数据倾斜解决方案

本文详细介绍了SparkSQL中解决数据倾斜的多种策略,包括聚合源数据、过滤倾斜key、提高shuffle并行度、双重groupBy、reducejoin转mapjoin、采样倾斜key单独join及随机key与扩容表。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

由于Spark都是基于RDD的特性,所以可以用纯RDD的方法,实现和Spark SQL一模一样的功能。

之前在Spark Core中的数据倾斜的七种解决方案,全部都可以直接套用在Spark SQL上。

Spark SQL的数据倾斜解决方案:

  1. 聚合源数据:Spark Core和Spark SQL没有任何区别
  2. 过滤导致倾斜的key:在sql中用where条件
  3. 提高shuffle并行度:groupByKey(1000),spark.sql.shuffle.partitions(默认是200)
  4. 双重groupBy:改写SQL,两次groupBy
  5. reduce join转换为map join:spark.sql.autoBroadcastJoinThreshold(默认是10485760);可以自己将表做成RDD,自己手动去实现map join;SparkSQL内置的map join,默认如果有一个10M以内的小表,会将该表进行broadcast,然后执行map join;调节这个阈值,比如调节到20M、50M、甚至1G。
  6. 采样倾斜key并单独进行join:纯Spark Core的一种方式,sample、filter等算子
  7. 随机key与扩容表:Spark SQL+Spark Core

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值