Spark之RDD分区规则

最新推荐文章于 2024-11-08 12:00:23 发布

原创最新推荐文章于 2024-11-08 12:00:23 发布 · 623 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #big data #scala

spark 专栏收录该内容

9 篇文章

订阅专栏

博客详细介绍了Spark中RDD的创建，特别是从集合和文件中创建RDD时的分区策略。当从集合创建RDD时不指定分区，默认分区数与本地模式的CPU核数相关。而指定分区时，根据给定数据和分区数，计算每个分区的起始和结束位置。对于文件读取，Spark默认取值为当前核数和2的最小值作为分区数，但可以通过指定分区数来调整。在计算分区时，Spark遵循Hadoop的切片策略，并按偏移量进行数据分配。

1.RDD数据从集合中创建

a.不指定分区

从集合创建rdd,如果不手动写分区数量的情况下,默认分区数跟本地模式的cpu核数有关

local : 1个 local[*] : 笔记本所有核心数 local[K]:K个

b.指定分区

object fenqu {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkCoreTest")
    val sc: SparkContext = new SparkContext(conf)

    //1）4个数据，设置4个分区，输出：0分区->1，1分区->2，2分区->3，3分区->4
    val rdd: RDD[Int] = sc.makeRDD(Array(1, 2, 3, 4), 4)

    //2）4个数据，设置3个分区，输出：0分区->1，1分区->2，2分区->3,4
    //val rdd: RDD[Int] = sc.makeRDD(Array(1, 2, 3, 4), 3)

    //3）5个数据，设置3个分区，输出：0分区->1，1分区->2、3，2分区->4、5
    //val rdd: RDD[Int] = sc.makeRDD(Array(1, 2, 3, 4, 5), 3)

    rdd.saveAsTextFile("output")

    sc.stop()
  }
}

规则

分区的开始位置 = (分区号 * 数据总长度)/分区总数

分区的结束位置 =((分区号 + 1)* 数据总长度)/分区总数