掌握RDD分区

本文详细探讨了Spark中的RDD分区,包括RDD分区原则、parallelize()和textFile()方法创建RDD时的分区数量设定,以及如何通过自定义分区器实现特定的分区策略。内容涵盖默认分区数量的计算方式,以及如何通过TestMyPartitioner类创建自定义分区器并应用于数据重新分区,最后展示了项目打包和运行的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、RRD分区

二、RDD分区数量

(一)RDD分区原则

(三)使用parallelize()方法创建RDD时的分区数量

1、指定分区数量

  • 使用parallelize()方法创建RDD时,可以传入第二个参数,指定分区数量。

  • 分区的数量应尽量等于集群中所有CPU的核心总数,以便可以最大程度发挥CPU的性能。
  • 利用mapPartitionsWithIndex()函数实现带分区索引的映射
    在这里插入图片描述

2、默认分区数量

3、分区源码分析

  • parallelize()方法是在SparkContext类定义的在这里插入图片描述

numSlices参数为指定的分区数量,该参数有一个默认值defaultParallelism,是一个无参函数

上述代码中的taskScheduler的类型为特质TaskScheduler,通过调用该特质的defaultParallelism方法取得默认分区数量,而类TaskSchedulerImpl继承了特质TaskScheduler并实现了defaultParallelism方法。

 

类LocalSchedulerBackend用于Spark的本地运行模式(Executor和Master等在同一个JVM中运行),其调用顺序在TaskSchedulerImpl类之后;类CoarseGrainedSchedulerBackend则用于Spark的集群运行模式。
类LocalSchedulerBackend中的defaultParallelism()方法

上述代码中的字符串spark.default.parallelism为Spark配置文件spark-defaults.conf中的参数spark.default.parallelism;totalCores为本机CPU核心总数。
类CoarseGrainedSchedulerBackend中的defaultParallelism()方法

  • 上述代码中,math.max(totalCoreCount.get(), 2)表示取集群中所有CPU核心总数与2两者中的较大值。
  • (四)使用textFile()方法创建RDD时的分区数量

  • 1、指定最小分区数量

  • 使用textFile()方法创建RDD时可以传入第二个参数指定最小分区数量。最小分区数量只是期望的数量,Spark会根据实际文件大小、文件块(Block)大小等情况确定最终分区数量
  • 在HDFS中有一个文件/park/test.txt,读取该文件,并指定最小分区数量为10,但是实际分区数量是11
  • 2、默认最小分区数量

  • 若不指定最小分区数量,则Spark将采用默认规则计算默认最小分区数量。
  • 查看textFile()源码
  • 上述代码中的minPartitions参数为期望的最小分区数量,该参数有一个默认值defaultMinPartitions,这是一个无参函数,我们来查看其源码。
    在这里插入图片描述
  • 3、默认实际分区数量

  • 最小分区数量确定后,Spark接下来将计算实际分区数量。查看textFile()方法的源码可知,textFile()方法最后调用了一个hadoopFile()方法,并对该方法的结果执行了map()算子。
  • 查看hadoopFile()方法的源码
  • RDD的最小分区数量。
  • 查看InputFormt接口getSplits()抽象方法
    在这里插入图片描述
  • InputFormat有个实现类FileInputFormat,它实现了getSplits()方法
    在这里插入图片描述
  • (二)解决问题

    1、新建自定义分区器

  • 创建MyPartitioner
  • package net.huawei.partition
    
    import org.apache.spark.Partitioner
    
    
    class MyPartitioner(partitions: Int) extends Partitioner {
    
      override def numPartitions: Int = partitions
    
    
      override def getPartition(key: Any): Int = {
        val partitionId = key.toString match {
          case "chinese" => 0
          case "math" => 1
          case "english" => 2
        }
        partitionId
      }
    }
    

    2、使用自定义分区器

  • 调用RDD的partitionBy()方法传入自定义分区器类MyPartitioner的实例,可以对RDD按照自定义规则进行重新分区。
  • 创建TestMyPartitioner单例对象
    在这里插入图片描述
  • package net.huawei.partition
    
    import org.apache.spark.rdd.RDD
    import org.apache.spark.{SparkConf, SparkContext}
    
    
    object TestMyPartitioner {
      def main(args: Array[String]): Unit = {
        // 创建Spark配置对象
        val conf = new SparkConf()
          .setAppName("TestMyPartitioner")
          .setMaster("spark://master:7077")
        // 基于Spark配置创建Spark上下文
        val sc = new SparkContext(conf)
        // 构建模拟数据
        val arr = Array(
          "chinese,94",
          "math,88",
          "english,91"
        )
        // 将模拟数据转成RDD,再转成键值对形式的元组
        val data: RDD[(String, Int)] = sc.makeRDD(arr).map(line => {
          (line.split(",")(0), line.split(",")(1).toInt)
        })
        // 将数据重新分区并保存到HDFS的/output目录
        data.partitionBy(new MyPartitioner(3))
          .saveAsTextFile("hdfs://master:9000/output")
      }
    }
    

    3、项目打包上传服务器

  • 利用IDEA将项目打包 - MyPartitioner.jar
  • 上传到Spark集群master节点的/opt目录
    在这里插入图片描述
  • 4、提交程序运行

  • 执行命令:spark-submit --master spark://master:7077 --class net.huawei.partition.TestMyPartitioner /opt/MyPartitioner.jar
  • 查看输出目录/output
  • 查看三个分区的结果文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值