1、spark.sql.codegen
默认值为false,当为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码,提高大型查询的性能,但是如果进行小规模的查询的时候反而会变慢
2、spark.sql.inMemoryColumnStorage.compressed
默认值为false,作用是自动对内存中的列式存储进行压缩,这样能够大幅度减少内存空间占用、网络传输和I/O开销。
3 spark.sql.inMemoryColumnStorage.batchSize
默认值为1000,代表的是列式缓存时的每个批处理的大小。较大的批处理可以提高内存利用率和压缩率,但同时也会带来 OOM(Out Of Memory)的风险
4 spark.sql.parquet.compressed.codec
默认值为snappy,参数代表使用哪种压缩编码器。可选的选项包括uncompressed/snappy/gzip/lzo
5、推测执行(Speculative Execution)
是指在分布式集群环境下,因为程序BUG,负载不均衡或者资源分布不均等原因,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则这些task拖慢了作业的整体执行进度,为了避免这种情况发生,Hadoop会为该task启动备份任务,让该