Spark SQL调优

本文探讨了Spark SQL的性能调优方法,包括编译优化、内存压缩、列式缓存大小调整、压缩编码选择、推测执行机制的原理和触发条件,以及列剪枝、Join优化等。通过这些策略,可以提升大数据查询的效率并减少资源消耗。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、spark.sql.codegen 默认值为false,当为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码,提高大型查询的性能,但是如果进行小规模的查询的时候反而会变慢

2、spark.sql.inMemoryColumnStorage.compressed 默认值为false,作用是自动对内存中的列式存储进行压缩,这样能够大幅度减少内存空间占用、网络传输和I/O开销。

3 spark.sql.inMemoryColumnStorage.batchSize 默认值为1000,代表的是列式缓存时的每个批处理的大小。较大的批处理可以提高内存利用率和压缩率,但同时也会带来 OOM(Out Of Memory)的风险

4 spark.sql.parquet.compressed.codec 默认值为snappy,参数代表使用哪种压缩编码器。可选的选项包括uncompressed/snappy/gzip/lzo
在这里插入图片描述

5、推测执行(Speculative Execution)是指在分布式集群环境下,因为程序BUG,负载不均衡或者资源分布不均等原因,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则这些task拖慢了作业的整体执行进度,为了避免这种情况发生,Hadoop会为该task启动备份任务,让该

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值