Spark2.1.1<Spark架构综述>

最新推荐文章于 2025-09-09 17:40:13 发布

转载最新推荐文章于 2025-09-09 17:40:13 发布 · 657 阅读

文章标签：

#spark

spark 专栏收录该内容

16 篇文章

订阅专栏

本文介绍了Spark的架构组成，包括Driver、ClusterManager、WorkerNode、Executor及Task等关键组件的作用和交互过程。同时深入解析了RDD（弹性分布式数据集）的概念、属性及其在Spark中的重要作用。

内容来自书籍《Spark技术内幕：深入解析Spark内核架构设计与原理》

spark架构如下图所示：
这里写图片描述

Driver是用户编写的数据处理逻辑，这个逻辑中包含用户创建的SparkContext。SparkContext是用户逻辑与Spark集群主要的交互接口，它会和Cluster Manager交互，包括向它申请计算资源等。Cluster Manager负责集群的资源管理和调度，现在支持Standalone、Apache Mesos和Hadoop的YARN。Worker Node是集群中可以执行计算任务的节点。Executor是在一个Worker Node上为某应用启动的一个进程，该进程负责运行任务，并且负责将数据存在内存或者磁盘上。Task是被送到某个Executor上的计算单元。每个应用都有各自独立的Executor，计算最终在计算节点的Executor中执行。

用户程序从最开始的提交到最终的计算执行，需要经历以下几个阶段：

1）用户程序创建SparkContext时，新创建的SparkContext实例会连接到Cluster Manager。
Cluster Manager会根据用户提交时设置的CPU和内存等信息为本次提交分配计算资源，启动Executor。
2）Driver会将用户程序划分为不同的执行阶段，每个执行阶段由一组完全相同的Task组成，这些Task分别作用于待处理数据的不同分区。在阶段划分完成和Task创建后，Driver会向Executor发送Task。

3）Executor在接收到Task后，会下载Task的运行时依赖，在准备好Task的执行环境后，会开始执行Task，并且将Task的运行状态汇报给Driver。

4）Driver会根据收到的Task的运行状态来处理不同的状态更新。Task分为两种：一种是Shuffle Map Task，它实现数据的重新洗牌，洗牌的结果保存到Executor所在节点的文件系统中；另外一种是Result Task，它负责生成结果数据。

5）Driver会不断地调用Task，将Task发送到Executor执行，在所有的Task都正确执行或者超过执行次数的限制仍然没有执行成功时停止。

RDD（弹性分布式数据集）

RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。这些确定性操作称为转换，如map、filter、groupBy、join。RDD不需要物化。RDD含有如何从其他RDD衍生（即计算）出本RDD的相关信息（即Lineage），Lineage），因此在RDD部分分区数据丢失的时候可以从物理存储的数据计算出相应的RDD分区。
每个RDD有5个主要的属性：
1）partition list，即数据集的基本组成单位。对于RDD来说，每个partition 都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的partition 个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。
2）一个计算每个partition 的函数。Spark中RDD的计算是以partition 为单位的，每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合，不需要保存每次计算的结果。
3）RDD之间的依赖关系。RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。
4）一个Partitioner，即RDD的分区函数。当前Spark中实现了两种类型的分区函数，一个是基于哈希的HashPartitioner，另外一个是基于范围的RangePartitioner。只有对于key-value的RDD，才会有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函数不但决定了RDD本身的分片数量，也决定了parent RDD Shuffle输出时的分片数量。
5）一个列表，存储存取每个Partition的优先位置（preferred location）。对于一个HDFS文件来说，这个列表保存的就是每个Partition所在的块的位置。按照“移动数据不如移动计算”的理念，Spark在进行任务调度的时候，会尽可能地将计算任务分配到其所要处理数据块的存储位置。对每一个split计算的优先位置 Preferred Location。比如对一个hdfs文件进行计算时，可以获取优先计算的block locations

以上五个特征中包含四个函数和一个属性，如下所示：

protected def getPartitions: Array[Partition]     //only called once
def compute(split: Partition, context: TaskContext): Iterator[T]
protected def getDependencies: Seq[Dependency[_]] = dips    //only called once
protected def getPreferredLocations(split: Partition): Seq[String] = Nil
@transient val partitioner: Option[Partitioner] = None