Spark常用算子分析与应用

最新推荐文章于 2024-01-18 17:12:15 发布

lss~

最新推荐文章于 2024-01-18 17:12:15 发布

阅读量385

点赞数 1

文章标签： hadoop spark hdfs mapreduce

本文链接：https://blog.youkuaiyun.com/qq_45763007/article/details/104593622

版权

本文深入探讨了Spark中的算子，包括转换算子如map、flatMap、groupby、filter等，以及行动算子如foreach、saveAsTextFile、collect等。通过对不同算子的案例分析，展示了它们在Spark数据处理中的应用和重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、算子概述
什么是算子
o英文翻译为：Operator（简称op）
o狭义：指从一个函数空间到另一个函数空间（或它自身）的映射。
o广义：指从一个空间到另一个空间的映射
o通俗理解：指事物(数据或函数)从一个状态到另外一个状态的过程抽象。
o实质就是映射，就是关系，就是变换。
算子的重要作用
o算子越少，灵活性越低，则实现相同功能的编程复杂度越高，算子越多则反之。
老手机与智能手机
老电脑与新电脑之HDMI (跟VGA是对等的)
o算子越少，表现力越差，面对复杂场景则易用性较差。算子越多的则反之。
黑白彩电与彩色电视
彩色电视和智能电视
MapReduce 与 Spark算子比较
oMapReduce只有2个算子，Map和Reduce，绝大多数应用场景下，均需要复杂编码才能达到用户需求。
oSpark有80多个算子，进行充分的组合应用后，能满足绝大多数的应用场景。
2、Spark算子介绍与应用
2.1 算子分类
1 转换算子(Transformation）
此种算子不触发提交作业，只有作业被提交后才会真正启动转换计算。
Value型转换算子：其处理的数据项是Value型
o输入分区与输出分区一对一型
map算子
flatMap算子
mapPartitions算子
glom算子
o输入分区与输出分区多对一型
union算子
cartesian算子
o输入分区与输出分区多对多型
groupBy算子
o输出分区为输入分区子集型
filter算子
distinct算子
subtract算子
sample算子
takeSample算子
oCache型
cache算子
persist算子
Key-Value型转换算子：其处理的数据是Key-Value型
o输入分区与输出分区一对一
mapValues算子
o对单个RDD聚集
combineByKey算子
reduceByKey算子
partitionBy算子
o对两个RDD聚集
cogroup算子
o连接
join算子
leftOutJoin算子
rightOutJoin算子
2 行动算子(Action）
此种算子会触发SparkContext提交作业。
无输出(是指不输出hdfs、本地文件当中)
oforeach算子
HDFS
osaveAsTextFile算子
osaveAsObjectFile算子
Scala集合和数据类型
ocollect算子
ocollectAsMap算子
oreduceByKeyLocally算子
olookup算子
ocount算子
otop算子
oreduce算子

最低0.47元/天解锁文章