SparkSql 常用参数配置

本文详细介绍了SparkSQL的性能优化策略,包括常用持久化方式、分区与参数控制、广播JOIN、数据倾斜处理、SmebJoin、堆外内存使用、AQE动态优化、Spark3.0的DPP动态分区裁剪以及3.0版本的 Hint增强。通过调整这些参数和采用相应策略,可以有效提升SparkSQL查询的效率和性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

SparkSql 常用参数配置:

1、常用持久化:

RDD层面:

​ 持久化cache:内存

​ MEMORY_ONLY_SER:序列化(启用sparkkryo序列化)有效降低内存占用,但耗费更多cpu性能序列化,而且还要注册需要序列化的类;

​ 以yarn集群为例,一般数据可靠性要求高,memory and disk,yarn资源充足memory 的java序列化即可,yarn资源不充足可以采用kryo序列化;

DFrame&DataSet持久化:

​ cache:默认Memory and Disk采用的序列化为特有编码器序列化,大大降低内存占用;

2、分区和参数控制

sparksql默认shuffle默认分区数200,参数spark.sql.shuffle.partitions,以hdfs为sink容易产生大量小文件;

解决方案:

  • 根据数据量及内存资源,使用coalesce或reparttion算子减少分区;
  • 合理利用cpu资源,一般情况设置分区=cpu核数 x executor数x 2~3 ,是资源满负载运行
  • 使用广播变量,在小表join大表时,将小表广播避免shuffle,广播阈值10m
3、广播join

spark.sql.autoBroadcastJoinThreshold=10MB,-1为关闭

api操作时,

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值