Spark中实现了两种类型的分区函数,一个是基于哈希的HashPartitioner,另外一个是基于范围的RangPartitioner。只对于key--value的
的RDD才有Partitioner。决定shuffle后的分区输出数量。同时我们可以自定义Partitioner。
import java.net.URL
import org.apache.spark.rdd.RDD
import org.apache.spark.{Partitioner, SparkConf, SparkContext}
import scala.collection.mutable
/**
* Created by hqs on 2018/1/27.
* 1.URL字符串转对象URL得host
* 2.Spark中自定义分区器实现shuffle,与reduceBy