Spark Application、Job、Stage、Task有什么关系

一个Application由多个job组成,一个job由多个stage组成,一个stage由task组成。

Application

一个完整的Spark应用程序,包含多个Job,具体含多少个Job由action算子决定。
Spark Application运行再集群上时,主要由4个部分组成。
Driver:是一个JVM Process进程,spark应用程序就是运行在Driver上,由Driver执行。完成Cluster Manager与Executor之间进行协调。
Master:是一个JVM Process进程,主要负责资源调度和调度
Worker:1.存储RDD的某个或者某些Partition;2.启动线程和进程,对RDD上的Partition进行计算。
Executor:一个Woker上可以启动多个进程(Executor),由多个线程(task)组成;负责对RDD上Partition数据进行计算。
Application组成及其任务

Job

一个action算一个Job,每个Job负责完成一个的计算任务,由多个stage组成,具体含多少个stage由shuffle依赖决定。Job间时串行执行的,一个Job执行完成后才会执行下一个Job。

Stage

包含多少个task由最后一个分区数决定。各个stage之间按照顺序执行,宽窄依赖的边界就是stage的划分点(以shuffle为界,发生shuffle就会产生一个新的stage)。注意:最开始的action算子会创造一个stage,用以保证一个DAG至少由一个Stage。

Task

是一个Stage中的一个任务单元。负责对一个数据分区进行计算操作,可以并行执行。一个Satge的task个数由其末端RDD分区个数决定。如果该job有shuffle操作,则影响该stage个数的是shuffle算子的并行度。如果没有shuffle过程的化,影响task个数的是HDFS数据最开始的分区数。
Application组成

1. RDD(Resilient Distributed Datasets):弹性分布式数据集,是Spark中最基本的数据抽象,是一个不可变的分布式对象集合,可以并行计算。RDD可以通过从Hadoop InputFormat中读取数据、在Spark中的其他RDD转换操作和从外部存储系统中获取数据创建。 2. DAG(Directed Acyclic Graph):有向无环图,它表示Spark任务执行的依赖关系。每个Spark应用程序都会生成一个DAG,用于描述任务之间的依赖关系。 3. Executor:执行器,是Spark中执行计算任务的工作进程。一个Spark应用程序可以由多个Executor组成,每个Executor都运行在独立的JVM进程中,负责运行Spark应用程序中的任务。 4. ApplicationSpark应用程序,是一个包含了用户编写的Spark任务代码和Spark集群上的资源配置信息的集合。在Spark中,应用程序通常以JAR包的形式提交到Spark集群中运行。 5. Task:任务,是Spark应用程序中最小的计算单元,是对RDD的一个分区进行操作的一段代码。每个Task都会被分配到一个Executor上运行。 6. Job:作业,是由一组相关的Task组成的,这些Task可以并行执行,且它们之间存在依赖关系Spark应用程序中的每个Action操作都会生成一个Job。 7. Stage:阶段,是Spark作业中的一个任务划分单元,是由若干个Task组成的。Spark会将一个Job划分成多个Stage,以便进行并行计算。一个Stage中的所有Task都可以并行执行,但是它们之间存在着依赖关系Spark将具有相同的计算依赖关系Task划分为同一个Stage
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

难得将就

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值