Spark 算子

本文详细介绍了Spark的主要算子,包括map、flatMap、mapPartitions、filter、groupByKey、reduceByKey、sortByKey、sortBy、join、leftOuterJoin、distinct、repartition、coalesce、count、collect、foreach、foreachPartition、cogroup和sample。这些算子在数据处理中起到关键作用,例如数据转换、过滤、分组、排序和采样等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.map:将原来RDD的每个数据项通过 map 中的用户自定义函数映射转变为一个新的元素。输入一条输出一条;
val newRDD = listRDD.map(line=>line.split(",")) //每一行变成了一个数组
2.flatMap:先进行一次 map 操作,然后把输出的结果合并成一个对象
listRDD.flatMap(line=>line.split(",")).foreach(println)//一行变成多行
//输出结果
// a
// b
// c
// d
// e
// f
3.mapPartition:与 map 函数类似,只不过映射函数的参数由 RDD 中的每一个元素变成了 RDD 中每一个分区的迭代器。将 RDD 中的所有数据通过 JDBC 连接写入数据库,如果使 用 map 函数,可能要为每一个元素都创建一个 connection,这样开销很大,如果使用 mapPartitions,那么只需要针对每一个分区建立一个 connection。
4.filter:依据条件过滤的算子
val list = 1 to 10
val listRDD = sc.parallelize(list)
listRDD.filter(line=>line%2==0).foreach(println)//2,4,6,8,10
5.groupByKey:依据 Key 进行分组
6.reduceByKey:先分组,后聚合根据传入的匿名函数聚合,适合在 map 端进行 combiner
val list = list(“a”,“a”,“b”,“c”)
val listRDD = sc.parallelize(list)
//首先将数据转换成key-value格式,
listRDD.map(line=>(line,1)).reduceByKey((x,y)=x+y)//(a,2),(b,1),(c,1)
7.sortByKey:依据 Key 进行排序,默认升序,参数设为 false 为降序
8.sortBy:根据后面设置的参数排序
9.join 和 leftouterjoin:join 是将两个 RDD 按照 Key 相同做一次聚合;而 leftouterjoin 是依 据左边的 RDD 的 Key 进行聚合
10.distinct:对这个 RDD 的元素或对象进行去重操作
11.repartition 和 coalesce:他们两个都是 RDD 的分区进行重新划分,repartition 只是 coalesce 接口中 shuffle 为 true 的简易实现。 repartition 可以产生 shuffer,可以在调优的过程中根据集群的环境具体设置产生 shuffer 的过程后并行度,可以更好的增加 Spark 的运行速度。一般设置为 true。当 coalesce 的 参数设置为 false 时,两个 RDD 之间仍然是窄依赖。
12.count:一个 action 算子,计数功能,返回一个 Long 类型的对象
13.collect:collect 相当于 toArray,collect 将分布式的 RDD 返回为一个单机的 Array 数组。
14.foreach 和 foreachPartition: foreach 对 RDD 中的每个元素都应用函数操作,传入一条 处理一条数据,返回值为空; foreachPartition 也是根据传入的 function 进行处理,但不 同处在于 function 的传入参数是一个 partition 对应数据的 iterator,而不是直接使用 iterator 的 foreach。
15.cogroup:先进行 join 操作,然后根据 key 进行 groupByKey

16.sample:将 RDD 这个集合内的元素进行采样,获取所有元素的子集。 SampledRDD(withReplacement,fraction,seed)相关参数为:withReplacement 代表是否 有放回的抽样,true表示有放回的抽样;false 表示无放回的抽样;fraction 表示抽样的 百分比,seed 表示随机种子

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值