Spark性能优化第二季

最新推荐文章于 2025-06-20 20:38:40 发布

原创最新推荐文章于 2025-06-20 20:38:40 发布 · 172 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Spark性能调优

spark 专栏收录该内容

175 篇文章

订阅专栏

Spark性能优化第二季
Task性能优化
数据倾斜性能优化
网络性能优化
一、Task性能优化
   1.慢任务的性能优化：可以考虑减少每个Partition处理的数据量，同时建议开启spark.speculation；
   2.尽量减少Shuffle，例如我们要尽量减少groupByKey的操作，因为groupByKey要求进行网络拷贝(Shuffle)所有的数据，优先考虑使用reduceByKey，因为reduceByKey会首先reduce locally；在例如在进行Join操作的时候，形如(K1,V1) join (K1,V2)=>(K1,V3)此时就可以进行pipeline，但是(O1) join (O2)=>(O3)，此时就会产生Shuffle操作；
   3.Repartition：增加Task数据量的时候可以考虑使用，从而可以更加充分使用计算资源，coalesce：整理Partition碎片；
二、数据倾斜性能优化
   1.自定义更加合理的key(或者说自定义Partition)；
   2.可以考虑使用ByteBuffer来存储Block，最大的存储数据为2G，如果超过这个大小会报异常；

三、网络性能优化
   1.可以考虑Shuffle的数据放在Tachyon中，带来更好的数据本地性，减少网络的Shuffle；
   2.优先采用Netty的方式进行网络通信；
   3.广播：例如进行join操作的时候，采用Broadcast可以达到完全的数据本地性的情况下进行join操作；
   4.mapPartitions中的函数会直接作用于整个Partition(一次！！！)；
   5.最优先考虑是Process-Local,Spark默认情况下就是这样做的，所以更加应该考虑使用tachyon
   6.如果要访问Hbase或者Canssandra，务必保证数据处理发送在数据所在的机器上；