最近看了一些SPARK资料,还没有系统性的整理,这里先归纳一下spark中算子的总结。如有什么错误或者不妥之处,希望大神们指出,相互交流共同进步!!哈哈哈
算子的定义:RDD中定义的函数,可以对RDD中的数据进行转换和操作。
下面根据算子类型的分类进行总结:
1. value型算子
从输入到输出可分为一对一(包括cache)、多对一、多对多、输出分区为输入分区自激
1)一对一,
map,简单的一对一映射,集合不变;
flatMap,一对一映射,并将最后映射结果整合;
mappartitions,对分区内元素进行迭代操作,例如过滤等,然后分区不变
glom,将分区内容转换成数据
2)多对一,
union,相同数据类型RDD进行合并,并不去重
cartesian,对RDD内的所有元素进行笛卡尔积操作
3)多对多,
groupBy,将元素通过函数生成相应的Key,然后转化为Key-value格式
4)输出分区为出入分区子集,
filter,对RDD进行过滤操作,结果分区不调整
&
算子的定义:RDD中定义的函数,可以对RDD中的数据进行转换和操作。
下面根据算子类型的分类进行总结:
1. value型算子
从输入到输出可分为一对一(包括cache)、多对一、多对多、输出分区为输入分区自激
1)一对一,
map,简单的一对一映射,集合不变;
flatMap,一对一映射,并将最后映射结果整合;
mappartitions,对分区内元素进行迭代操作,例如过滤等,然后分区不变
glom,将分区内容转换成数据
2)多对一,
union,相同数据类型RDD进行合并,并不去重
cartesian,对RDD内的所有元素进行笛卡尔积操作
3)多对多,
groupBy,将元素通过函数生成相应的Key,然后转化为Key-value格式
4)输出分区为出入分区子集,
filter,对RDD进行过滤操作,结果分区不调整
&