Spark Transformation —— repartition算子

本文介绍了 Apache Spark 中的 repartition 函数,详细解释了其与 coalesce 函数的区别,并通过示例展示了如何使用 repartition 函数来调整 RDD 的分区数量。
def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

该函数其实就是coalesce函数第二个参数为true的实现,coalesce 有合并联合的意思,更偏向于合并分区,而 repartion 算子就是重新分区的意思。

scala> var rdd2 = data.repartition(1)
rdd2: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[15] at repartition at <console>:29

scala> rdd2.partitions.size
res8: Int = 1

scala> var rdd2 = data.repartition(4)
rdd2: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[19] at repartition at <console>:29

scala> rdd2.partitions.size
res9: Int = 4
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值