文章目录
- Transformation算子
- 1.map算子:和python的一样,单个单个全部处理一遍
- 2.flatMap算子:解除嵌套,本来合在一起的现在独立
- 3.reduceByKey算子:先分组,再两两聚合
- 4.mapValue算子:仅仅是计算value
- 5.groupBy算子:分组的作用
- 6.Filter算子:过滤掉不要的,保留想要的
- 7.distinct算子:对RDD数据进行去重
- 8.union算子:合并两个RDD为一个,可以混合合并
- 9.join算子:对两个RDD进行连接操作(只能k-v型的)
- 10.intersection算子:求两个RDD的交集
- 11.glom算子:将RDD加上嵌套,这个嵌套和分区个数有关
- 12.groupByKey算子:针对kv型,只按key分组
- 13.sortBy算子:基于你指定的规则排序
- 14.sortByKey算子:只按照key进行排序
Transformation算子
1.map算子:和python的一样,单个单个全部处理一遍


2.flatMap算子:解除嵌套,本来合在一起的现在独立


3.reduceByKey算子:先分组,再两两聚合


4.mapValue算子:仅仅是计算value


5.groupBy算子:分组的作用



6.Filter算子:过滤掉不要的,保留想要的


7.distinct算子:对RDD数据进行去重

8.union算子:合并两个RDD为一个,可以混合合并

9.join算子:对两个RDD进行连接操作(只能k-v型的)


10.intersection算子:求两个RDD的交集

11.glom算子:将RDD加上嵌套,这个嵌套和分区个数有关

12.groupByKey算子:针对kv型,只按key分组

13.sortBy算子:基于你指定的规则排序


14.sortByKey算子:只按照key进行排序


本文详细介绍了Apache Spark中Transformation算子的14种核心操作,包括map、flatMap、reduceByKey、mapValue等,以及它们在数据处理流程中的作用,如数据映射、去重、连接等。理解并掌握这些算子对于高效使用Spark进行大数据处理至关重要。
998

被折叠的 条评论
为什么被折叠?



