算子的分类和 宽依赖算子、窄依赖算子

本文详细介绍了Spark中的转换算子,包括filter、map、flatMap等,并探讨了行动算子如foreach、count、collect的作用。同时,文章还讲解了持久化算子cache和persist的使用及原理,强调了它们的懒执行特性、分区管理和内存优化策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、转换算子

转换算子:Transformation,懒执行,需要Action触发执行

filter

过滤 RDD[T]==>RDD[T],窄依赖

map

RDD[T] ->RDD[O], 窄依赖

flatMap

RDD[T]–>RDD[[O]],一对多 ,窄依赖,

mapToPair

sample

抽样算子 RDD[T]–>RDD[O],窄依赖

sortBy

RDD[T]–>RDD[T], 根据你指定的内容排序 宽依赖

sortByKey

根据你的K排序,要求RDD中必须是KV的,宽依赖

reduceByKey

根据RDD的K分组之后聚合(累加,字符串连接) , 宽依赖

join

把两个RDD根据K相同合并,结果RDD[K,(V1,V2)] ,宽依赖

leftOuterJoin

左连接 和下面的一致 都是宽依赖

rightOuterJoin

fullOuterJoin

union

把两个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值