RDD行动算子

晚椰子树

于 2025-04-12 17:03:38 发布

阅读量353

点赞数 15

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2301_82217925/article/details/147137887

版权

先聚合分区内数据，再聚合分区间数据

数组 Array 的形式返回数据集的所有元素

分布式遍历 RDD 中的每一个元素，调用指定函数

返回 RDD 中元素的个数

返回 RDD 中的第一个元素

返回一个由 RDD 的前 n 个元素组成的数组

返回该 RDD 排序后的前 n 个元素组成的数组

分区的数据通过初始值和分区内的数据进行聚合，然后再和初始值进行分区间的数据聚合

折叠操作，aggregate 的简化版操作

统计每种 key 的个数

将数据保存到不同格式的文件中

累加器

累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量，在

Executor 端的每个 Task 都会得到这个变量的一份新的副本，每个 task 更新这些副本的值后，传回 Driver 端进行 merge

自定义累加器实现wordcount：

创建自定义累加器：

广播变量

广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个

或多个 Spark 操作使用。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，

广播变量用起来都很顺手。在多个并行操作中使用同一个变量，但是 Spark 会为每个任务

分别发送。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。