PyS1：概述

原创已于 2024-03-21 20:56:39 修改 · 2.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pyspark #python

于 2022-04-20 22:03:09 首次发布

PySpark简明笔记专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了Spark的架构设计，包括资源管理节点、工作控制节点和工作执行节点，强调了Executor的多线程执行和内存磁盘存储的优势。Spark的运行流程涵盖SparkContext的创建、DAG图构建、Stage划分及Task执行。Shuffle操作在Reduce端类似于Combine，并且Spark在设计时假设数据排序非必需。文章还讨论了RDD的窄依赖和宽依赖概念，以及如何优化Stage划分。最后提到了PySpark的环境配置，包括conda环境、AI平台以及资源的持久化。

部署运行你感兴趣的模型镜像

1. Spark架构设计

Spark集群当中一般会有三个角色，分别是资源管理节点（Cluster Manager）、工作控制节点（Driver）和工作执行节点（Worker Node）
在这里插入图片描述
相比于MapReduce框架，Spark所采用的Executor有2有两个优点：

每个任务有自己专属的采用多线程的方式来执行任务，并且在任务执行的过程当中一直保持着驻留的状态。相比于MapReduce所采用的多进程模型来说，这样的设计避免了多进程任务频繁的启动开销，使得任务执行变得更加高效和可靠。
每个Executor上都有一个BlockManager模块，默认使用内存作为存储设备，内存不足时再写入磁盘。其主要存储计算的中间结果，相比于MapReduce框架来说，减少了HDFS等文件系统的读写操作。

我们还可以从另一个逻辑结构的视角来看Spark的设计，其中的某一个应用程序（Application）主要由一个控制节点（Driver）和多个作业（Job）组成。而每一个作业（Job）又是由多个阶段（Stage）组成，每个阶段（Stage）内是没有Shuffle关系的任务（Task），阶段（Stage）和阶段（Stage）之间应该有Shuffle操作。与上文相呼应的是任务（Task），它跑在工作执行节点（Worker Node）的Executor当中，是具体执行处理操作的角色，但是在逻辑是由控制节点（Driver）进行调控。

在这里插入图片描述

2. Spark运行基本流程

首先为应用构建起基本的运行环境，即由Driver创建一个SparkContext，进行资源的申请、任务的分配和监控

资源管理器为Executor分配资源，并启动Executor进程

SparkContext根据RDD的依赖关系构建DAG图，DAG图提交给DAGScheduler解析成Stage，然后把一个个TaskSet提交给底层调度器TaskScheduler处理；Executor向SparkContext申请Task，Task Scheduler将Task发放给Executor运行，并提供应用程序代码

Task在Executor上运行，把执行结果反馈给TaskScheduler，然后反馈给DAGScheduler，运行完毕后写入数据并释放所有资源

在这里插入图片描述