Spark算子

从大方向来说,Spark 算子大致可以分为以下两类:

 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。

Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。

 2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。

Action 算子会触发 Spark 提交作业(Job),并将数据输出 Spark系统。

从小方向来说,Spark 算子大致可以分为以下三类:

1)Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。
  2)Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数据项是Key-Value型的数据对。

3)Action算子,这类算子会触发SparkContext提交Job作业。

1)Value数据类型的Transformation算子  
一、输入分区与输出分区一对一型
    1、map算子
    2、flatMap算子
    3、mapPartitions算子
    4、glom算子
二、输入分区与输出分区多对一型 
    5、union算子
    6、cartesian算子
三、输入分区与输出分区多对多型
    7、grouBy算子
四、输出分区为输入分区子集型
    8、filter算子
    9、distinct算子
    10、subtract算子
    11、sample算子
   12、takeSample算子
五、Cache型
    13、cache算子  
    14、persist算子

2)Key-Value数据类型的Transfromation算子
一、输入分区与输出分区一对一
    15、mapValues算子
二、对单个RDD或两个RDD聚集
   单个RDD聚集

16、combineByKey算子
    17、reduceByKey算子
    18、partitionBy算子
  两个RDD聚集

19、Cogroup算子
三、连接
    20、join算子
    21、leftOutJoin和 rightOutJoin算子

3)Action算子
一、无输出
    22、foreach算子
二、HDFS
    23、saveAsTextFile算子
    24、saveAsObjectFile算子
三、Scala集合和数据类型
    25、collect算子
    26、collectAsMap算子
    27、reduceByKeyLocally算子
    28、lookup算子
    29、count算子
    30、top算子
    31、reduce算子
    32、fold算子
    33、aggregate算子

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值