(二)常用Shuffle类算子：groupByKey、reduceByKey、aggregateByKey 和 sortByKey

for your wish

已于 2022-02-23 17:32:50 修改

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：面试Interview 文章标签： big data

于 2021-11-26 09:54:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/someInNeed/article/details/121553197

Spark 同时被 2 个专栏收录

41 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

面试Interview

20 篇文章

订阅专栏

本文详细介绍了 Spark 中的四个重要算子：groupByKey、reduceByKey、aggregateByKey 和 sortByKey。groupByKey 用于分组收集，但因其全量数据交换导致性能问题；reduceByKey 具有 Map 端聚合优势，提高效率，适用于 Map 与 Reduce 阶段计算逻辑一致的情况；aggregateByKey 提供更灵活的聚合功能，允许 Map 和 Reduce 阶段使用不同逻辑；sortByKey 则用于按 Key 进行排序。了解并合理使用这些算子是提升数据分析应用效率的关键。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在数据分析场景中，典型的计算类型分别是分组、聚合和排序。而 groupByKey、reduceByKey、aggregateByKey 和 sortByKey 这些算子的功能，恰恰就是用来实现分组、聚合和排序的计算逻辑。

这些算子看上去相比其他算子的适用范围更窄，也就是它们只能作用（Apply）在 Paired RDD 之上，所谓 Paired RDD，它指的是元素类型为（Key，Value）键值对的 RDD。

但是在功能方面，可以说，它们承担了数据分析场景中的大部分职责。因此，掌握这些算子的用法，是我们能够游刃有余地开发数据分析应用的重要基础。

先来说说 groupByKey，坦白地说，相比后面的 3 个算子，groupByKey 在我们日常开发中的“出镜率”并不高。之所以要先介绍它，主要是为后续的 reduceByKey 和 aggregateByKey 这两个重要算子做铺垫。

groupByKey：分组收集

groupByKey 的字面意思是“按照 Key 做分组”，但实际上，groupByKey 算子包含两步，即分组和收集。

具体来说，对于元素类型为（Key，Value）键值对的 Paired RDD，groupByKey 的功能就是对 Key 值相同的元素做分组

了解本专栏

超级会员免费看

博客等级

码龄7年

334
原创

228
点赞

985
收藏

9724
粉丝

关注

私信

热门文章

分类专栏

数据治理 6篇
AI 9篇
Excel 7篇
IDEA 10篇
面试Interview 20篇
Linux 10篇
json 4篇
业务相关 4篇
DBeaver 1篇
技术比较 10篇
Scala 5篇
TDH 1篇

展开全部收起

上一篇：: Scala中的for循环遍历和yield详解

下一篇：: (三)Spark内存管理

最新评论

安装torch报cannot uninstall TBB，its a distutils installed project
aboutibm: 删除文件即可解决：D:\bin\Anaconda3\Lib\site-packages\TBB-0.2-py3.9.egg-info
SCD问题中的第三类实际应用
优快云-Ada助手: Java 中的设计模式是什么？如何应用设计模式提高代码质量？
使用Git提交代码
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
向量化vectorization
优快云-Ada助手: 算法技能树或许可以帮到你：https://edu.youkuaiyun.com/skill/algorithm?utm_source=AI_act_algorithm
SqoopExport-Hive到RDBMS(乱码)
优快云-Ada助手: Hive 中如何进行数据的备份和恢复？

大家在看

KEEPALIVED

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。