本文首发自个人博客:https://blog.smile13.com/articles/2018/12/02/1543738098914.html
1.spark算子分类
1.1Transformation算子
Transformation算子不触发提交作业,完成作业中间处理过程。Transformation算子又分为如下两类:
1.Value数据类型的Transformation算子:针对处理的数据项是Value型的数据。
2.Key-Value数据类型的Transformation算子:针对处理的数据项是Key-Value型的数据。
1.2Action算子
Action算子会触发 SparkContext 提交 Job 作业。
2.spark算子列表
2.1.Value数据类型的Transformation算子
2.1.1.输入分区与输出分区一对一类型的算子
(1)map算子
(2)flatMap算子
(3)mapPartitions算子
(4)mapPartitionsWithIndex算子
(5)glom算子
(6)randomSplit算子
2.1.2.输入分区与输出分区多对一类型的算子
(1)union算子
(2)cartesian算子
2.1.3.输入分区与输出分区多对多类型的算子

本文详细介绍了Spark的算子分类,包括Transformation算子(如map、flatMap、filter等)和Action算子(如saveAsTextFile、count、collect等),并对各类算子的特性和使用场景进行了说明。
最低0.47元/天 解锁文章
819

被折叠的 条评论
为什么被折叠?



