spark优化参数调整思路

最新推荐文章于 2025-10-19 15:49:54 发布

原创最新推荐文章于 2025-10-19 15:49:54 发布 · 926 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

Spark 专栏收录该内容

20 篇文章

订阅专栏

本文介绍如何通过调整Spark参数来优化程序性能，包括减少Executor数量、增大单个Executor内存、合理设置Cache级别、优化Shuffle操作及提高并行度等方法。

spark参数调整


 1. 减少num-executors，调大executor-memory，这样的目的是希望Executor有足够的内存可以使用
 2. Cache的级别适当调成MEMORY_ONLY_SER和DISK_ONLY
 3. 修改逻辑，避免shuffle；shuffle是stage的区分标准
 4. 参数设置
 spark.sql.shuffle.partitions
 spark.serializer
 5.设置广播变量

代码优惠部分
1.使用mapPartitions代替大部分map操作，或者连续使用的map操作：
这里需要稍微讲一下RDD和DataFrame的区别。RDD强调的是不可变对象，每个RDD都是不可变的，当调用RDD的map类型操作的时候，都是产生一个新的对象，这就导致了一个问题，如果对一个RDD调用大量的map类型操作的话，每个map操作会产生一个到多个RDD对象，这虽然不一定会导致内存溢出，但是会产生大量的中间数据，增加了gc操作。另外RDD在调用action操作的时候，会出发Stage的划分，但是在每个Stage内部可优化的部分是不会进行优化的，例如rdd.map(+1).map(+1)，这个操作在数值型RDD中是等价于rdd.map(_+2)的，但是RDD内部不会对这个过程进行优化。DataFrame则不同，DataFrame由于有类型信息所以是可变的，并且在可以使用sql的程序中，都有除了解释器外，都会有一个sql优化器

2. Spark 提高并行度
实现简单，可在需要Shuffle的操作算子上直接设置并行度或者使用spark.default.parallelism设置。如果是Spark SQL，还可通过SET spark.sql.shuffle.partitions=[num_tasks]设置并行度。可用最小的代价解决问题。一般如果出现数据倾斜，都可以通过这种方法先试验几次，如果问题未解决，再尝试其它方法。