[Spark基础]--spark自定义分区及使用方法

最新推荐文章于 2025-09-28 09:34:25 发布

oo寻梦in记

最新推荐文章于 2025-09-28 09:34:25 发布

阅读量1.9w

点赞数 10

CC 4.0 BY-SA版权

分类专栏： Apache Spark 文章标签： spark

本文链接：https://blog.youkuaiyun.com/high2011/article/details/68491115

Apache Spark 专栏收录该内容

137 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Spark中分区的重要性和不同分区策略，包括HashPartitioner可能导致的数据不均匀问题和RangePartitioner的有序与均衡特性。还详细讲解了如何自定义分区器，通过继承Partitioner类并实现相关方法。最后，提供了自定义分区的使用示例。

Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数

注意：

(1)只有Key-Value类型的RDD才有分区函数，非Key-Value类型的RDD无分区函数，但是也是有分区的
(2)每个RDD的分区ID范围：0~numPartitions-1，决定这个值是属于那个分区的。

分区方式的优劣

HashPartitioner分区弊端：

可能导致每个分区中数据量的不均匀，极端情况下会导致某些分区拥有RDD的全部数据(HashCode为负数时，为了避免小于0，spark做了以下处理)。

/* Calculates 'x' modulo 'mod', takes to consideration sign of x,
 * i.e. if 'x' is negative, than 'x' % 'mod' is negative too
 * so function return (x % mod) + mod in that case.
 */
 def nonNegativeMod(x: Int, mod: Int): Int = {
   val rawMod = x % mod
   rawMod + (if (rawMod < 0) mod else 0)
 }

了解本专栏

超级会员免费看

5 条评论

billows9297 2020.08.02
你去看textfile的源码可以看到，里面有个hadoopfile(). map，hadoopfile里面可以看到new了一个hadooprdd，hadooprdd里面有个compute方法（复写了父类rdd的compute），compute里面有个inputformat对象，就是靠这个来读取hdfs上的文件（类似于mapreduce中的map之间通过inputformat对象来读取数据），但是生成的是一个元组（行号，text对象），最后是通过hadoopfile(). map（_. 2.tostring）转化为string形式的一行一行数据。所以并不是只有key-value才有分区的，是只有key-value才有分区函数（用于计算一个数据应该发往哪一个机器上面）

Jasmine_huang 2019.04.20
分区可以做到，假如总共1000个数据，如果我实现了自定义分区假设定义了10个，在每个分区（每个分区就是100个数据），我在每个分区随机选10个，然后reduce就能合起来变成10*10 = 100个数据吗

lyz13469312003 2018.09.09
这个k-v类型的RDD指的是什么样的RDD? RDD[String,Int]这样的? 那刚从本地文件中读取数据进来, 每一条数据流的key指的是什么?是偏移量吗?因为一开始就要进行partition? 如果是从HDFS中读数据进来呢? 按照官方说法, 一个block默认对应一个partition, 这个时候, 你的key指的是block的什么?block也有k-v?
- 涯若回复oo寻梦in记 2019.03.30
  [reply]high2011[/reply] 我还是没有明白直接从HDFS或者本地文件夹中读出的RDD是不是有key，因为调用getNumPartition返回了某个数。
- oo寻梦in记回复lyz13469312003 2018.09.13
  [reply]lyz13469312003[/reply] 不一定，需要看代码怎么写，怎么实现的。
- lyz13469312003回复oo寻梦in记 2018.09.12
  [reply]high2011[/reply] 大哥, 如果是这样的话, 我理解错了, 就是说, 当数据首先从HDFS上加载数据的时候, 这个时候会针对每个块进行一个hash吗? 数据一开始加载到spark集群中, 会有什么规则呢?因为这时候并不一定存在一个key
- oo寻梦in记回复lyz13469312003 2018.09.10
  [reply]lyz13469312003[/reply] 是指PairRDD，rdd的五个特性之一。 * - A list of partitions * - A function for computing each split * - A list of dependencies on other RDDs * - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) * - Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file) https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.scala