大数据学习笔记 3.3 掌握RDD分区

最新推荐文章于 2023-06-09 11:39:12 发布

原创

最新推荐文章于 2023-06-09 11:39:12 发布 · 680 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#学习 #笔记 #spark

目录

一、RRD分区

1、分区概念

2、RDD分区作用

二、RDD分区数量

1、二、RDD分区数量

2、影响分区的因素

3、使用parallelize()方法创建RDD时的分区数量

3.1、指定分区数量

3.2、默认分区数量

3.3、分区源码分析

4、使用textFile()方法创建RDD时的分区数量

4.1、指定最小分区数量

4.2、默认最小分区数量

4.3、默认实际分区数量

5、RDD分区方式

三、Spark分区器

1、分区器 - Partitioner抽象类

2、哈希分区器 - HashPartitioner类

四、自定义分区器

2、解决问题

2.1、准备数据文件

2.2、新建科目分区器

2.3、测试科目分区器

一、RRD分区

1、分区概念

RDD是一个大的数据集合，该集合被划分成多个子集合分布到了不同的节点上，而每一个子集合就称为分区（Partition）。因此，也可以说，RDD是由若干个分区组成的。

2、RDD分区作用

在分布式程序中，网络通信的开销是很大的，因此控制数据分布以获得最少的网络传输可以极大的提升程序的整体性能，Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区，系统会根据一个针对键的函数对元素进行分区。虽然Spark不能控制每个键具体划分到哪个节点上，但是可以确保相同的键出现在同一个分区上。

二、RDD分区数量

1、二、RDD分区数量

RDD各个分区中的数据可以并行计算，因此分区的数量决定了并行计算的粒度。Spark会给每一个分区分配一个单独的Task任务对其进行计算，因此并行Task的数量是由分区的数量决定的。RDD分区的一个分区原则是使得分区的数量尽量等于集群中CPU核心数量。

2、影响分区的因素

RDD的创建有两种方式：一种是使用parallelize()或makeRDD()方法从对象集合创建；另一种是使用textFile()方法从外部存储系统创建。RDD分区的数量与RDD的创建方式以及Spark集群的运行模式有关。

3、使用parallelize()方法创建RDD时的分区数量

3.1、指定分区数量

使用parallelize()方法创建RDD时，可以传入第二个参数，指定分区数量。
注意：采用本地模式启动Spark Shell（在master节点上）

分区的数量应尽量等于集群中所有CPU的核心总数，以便可以最大程度发挥CPU的性能。

利用mapPartitionsWithIndex()函数实现带分区索引的映射

第1个分区完成了3个元素的映射，第2个分区完成了3个元素的映射，第3个分区完成了4个元素的映射

3.2、默认分区数量

若不指定分区数量，则默认分区数量为Spark配置文件spark-defaults.conf中的参数spark.default.parallelism的值。若没有配置该参数，则Spark会根据集群的运行模式自动确定分区数量。
如果是本地模式，默认分区数量就等于本机CPU核心总数，这样每个CPU核心处理一个分区的计算任务，可以最大程度发挥CPU的性能。
如果是Spark Standalone或Spark On YARN模式，默认分区数量就取集群中所有CPU的核心总数与2中的较大值，即最少分区数为2。
我们采用的是Standalone模式的Spark集群
先用spark-shell本地模式启动

由此可见，本地机器master的CPU核数为4。
以集群模式启动Spark Shell

Spark集群是一个Master(master虚拟机)和两个Worker(slave1和slave2虚拟机)

默认分区数是8。为什么是8呢？集群两个工作节点（slave1和slave2）的CPU核数总和是4 + 4 = 8

`3.3、`分区源码分析

parallelize()方法是在SparkContext类定义的

numSlices参数为指定的分区数量，该参数有一个默认值defaultParallelism，是一个无参函数

上述代码中的taskScheduler的类型为特质TaskScheduler，通过调用该特质的defaultParallelism方法取得默认分区数量，而类TaskSchedulerImpl继承了特质TaskScheduler并实现了defaultParallelism方法。

上述代码中的backend的类型为特质SchedulerBackend，通过调用该特质的defaultParallelism()方法取得默认分区数量，特质SchedulerBackend主要用于申请资源和对Task任务的执行和管理；而类LocalSchedulerBackend和类CoarseGrainedSchedulerBackend则继承了特质S

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。