Spark Transformation —— repartition算子

最新推荐文章于 2025-02-26 19:58:15 发布

搬砖小工053

最新推荐文章于 2025-02-26 19:58:15 发布

阅读量812

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： spark 重新分区算子

本文链接：https://blog.youkuaiyun.com/SA14023053/article/details/51993488

Spark 专栏收录该内容

25 篇文章

订阅专栏

本文介绍了 Apache Spark 中的 repartition 函数，详细解释了其与 coalesce 函数的区别，并通过示例展示了如何使用 repartition 函数来调整 RDD 的分区数量。

def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

该函数其实就是coalesce函数第二个参数为true的实现，coalesce 有合并联合的意思，更偏向于合并分区，而 repartion 算子就是重新分区的意思。

scala> var rdd2 = data.repartition(1)
rdd2: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[15] at repartition at <console>:29

scala> rdd2.partitions.size
res8: Int = 1

scala> var rdd2 = data.repartition(4)
rdd2: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[19] at repartition at <console>:29

scala> rdd2.partitions.size
res9: Int = 4