58、Spark性能优化之reduceByKey和groupByKey

最新推荐文章于 2025-06-21 15:34:27 发布

原创最新推荐文章于 2025-06-21 15:34:27 发布 · 1.6k 阅读

0 ·

CC 4.0 BY-SA版权

Spark入坑专栏收录该内容

207 篇文章

订阅专栏

本文深入探讨了Spark中groupByKey与reduceByKey的工作原理及性能对比。groupByKey不进行本地聚合，导致大量数据需网络传输，而reduceByKey则在ShuffleMapTask端进行本地聚合，大幅减少数据量，提升性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

groupByKey

val counts = pairs.groupByKey().map(wordCounts => (wordCounts._1, wordCounts._2.sum))

groupByKey工作原理.png

groupByKey的性能，相对来说，是有问题的
因为，它是不会进行本地聚合的，而是原封不动的，把ShuffleMapTask的输出，拉取到ResultTask的内存中，所以这样的话，会导致，所有的数据，都要进行网络传输，从而导致网络传输的性能开销很大
但是，有些场景下，用其他算法实现不了的，比如reduceByKey,sortByKey,countByKey实现不了的话，还是只能用groupByKey().map()来实现，比如可能你需要拿到某个key对应的所有的value，进行自定义的业务逻辑处理

reduceByKey

val counts = pairs.reduceByKey(_ + _)

reduceByKey原理.png

HashShuffleWriter的writer()方法，是先判断了一下，如果是isMapCombined，那么就在本地进行聚合，聚合之后，再写入磁盘文件
对于，仅仅是要对key对应的values进行聚合为一个值的场景，用reduceByKey是非常合适的，因为会先在ShuffleMapTask端写入本地磁盘文件的时候，进行本地聚合，再写入磁盘文件，此时，就会导致数据量大幅度缩减，甚至可能达到数据量缩减了几倍，甚至十几倍、几十倍的程度
这样的话，也就相当于，ShuffleMapTask端的数据，传输到ReduceTasl端的数据，数据量大幅度缩减，性能大幅度增加，甚至达到减少数据量的时间，几倍、十几倍、几十倍

如果能用reduceByKey，那就用reduceByKey，因为它会在map端，先进行本地combine，可以大大减少要传输到reduce端的数据量，减小网络传输的开销。
只有在reduceByKey处理不了时，才用groupByKey().map()来替代。