Spark中自定义分区器实现shuffle

最新推荐文章于 2025-05-14 08:31:36 发布

自由幻想的人儿

最新推荐文章于 2025-05-14 08:31:36 发布

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： Spark自定义分区器 Partitioner URL对象转换

本文链接：https://blog.youkuaiyun.com/qq_28666339/article/details/79184083

Spark提供HashPartitioner和RangPartitioner两种分区方式，针对key-value的RDD，自定义Partitioner能控制shuffle过程。通过继承Partitioner并重写方法确定分区ID，实现数据重新分布。自定义分区在处理多样key并要求去重时尤为关键。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark中实现了两种类型的分区函数，一个是基于哈希的HashPartitioner,另外一个是基于范围的RangPartitioner。只对于key--value的

的RDD才有Partitioner。决定shuffle后的分区输出数量。同时我们可以自定义Partitioner。



import java.net.URL

import org.apache.spark.rdd.RDD
import org.apache.spark.{Partitioner, SparkConf, SparkContext}

import scala.collection.mutable

/**
  * Created by hqs on 2018/1/27.
  * 1.URL字符串转对象URL得host
  * 2.Spark中自定义分区器实现shuffle，与reduceBy