1、算子概述
什么是算子
o英文翻译为:Operator(简称op)
o狭义:指从一个函数空间到另一个函数空间(或它自身)的映射。
o广义:指从一个空间到另一个空间的映射
o通俗理解:指事物(数据或函数)从一个状态到另外一个状态的过程抽象。
o实质就是映射,就是关系,就是变换。
算子的重要作用
o算子越少,灵活性越低,则实现相同功能的编程复杂度越高,算子越多则反之。
老手机与智能手机
老电脑与新电脑之HDMI (跟VGA是对等的)
o算子越少,表现力越差,面对复杂场景则易用性较差。算子越多的则反之。
黑白彩电与彩色电视
彩色电视和智能电视
MapReduce 与 Spark算子比较
oMapReduce只有2个算子,Map和Reduce,绝大多数应用场景下,均需要复杂编码才能达到用户需求。
oSpark有80多个算子,进行充分的组合应用后,能满足绝大多数的应用场景。
2、Spark算子介绍与应用
2.1 算子分类
1 转换算子(Transformation)
此种算子不触发提交作业,只有作业被提交后才会真正启动转换计算。
Value型转换算子:其处理的数据项是Value型
o输入分区与输出分区一对一型
map算子
flatMap算子
mapPartitions算子
glom算子
o输入分区与输出分区多对一型
union算子
cartesian算子
o输入分区与输出分区多对多型
groupBy算子
o输出分区为输入分区子集型
filter算子
distinct算子
subtract算子
sample算子
takeSample算子
oCache型
cache算子
persist算子
Key-Value型转换算子:其处理的数据是Key-Value型
o输入分区与输出分区一对一
mapValues算子
o对单个RDD聚集
combineByKey算子
reduceByKey算子
partitionBy算子
o对两个RDD聚集
cogroup算子
o连接
join算子
leftOutJoin算子
rightOutJoin算子
2 行动算子(Action)
此种算子会触发SparkContext提交作业。
无输出(是指不输出hdfs、本地文件当中)
oforeach算子
HDFS
osaveAsTextFile算子
osaveAsObjectFile算子
Scala集合和数据类型
ocollect算子
ocollectAsMap算子
oreduceByKeyLocally算子
olookup算子
ocount算子
otop算子
oreduce算子
Spark常用算子分析与应用
最新推荐文章于 2024-01-18 17:12:15 发布