GroupByKey和ReduceByKey对比

原创

已于 2023-10-16 20:35:23 修改 · 307 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #spark

于 2023-10-16 20:32:45 首次发布

文章比较了Spark中GroupByKey和ReduceByKey两种Transformation算子，主要区别在于ReduceByKey在shuffle前进行提前聚合，减少数据量，提高性能，而GroupByKey则在shuffle时进行分组聚合，常需配合mapValues。

GroupByKey和ReduceByKey两者都是spark中的Transformation算子，尽管二者通过操作可以实现相同的效果，但是二者有着很大的区别。

在shuffle操作上，ReduceByKey会在shuffle之前发生提前聚合，这样会大量的减少落盘的数据量，提高性能与效率，在开发中也是更偏向于使用ReduceByKey.然而GroupByKey不会在分区内提前聚合，只会在发生shuffle的时候进行分组聚合，并且还要搭配mapValues()使用，将需要的操作转到mapValues()里。

例：

Examples：使用reduceByKey统计数值

reduceByKey：将数据按照value值累加(不是计数)

key2 = rdd3.reduceByKey(lambda x,y:x+y)

print(key2.collect())

[('b',

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

yangjiwei0207 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。