Spark Application、Job、Stage、Task有什么关系

最新推荐文章于 2024-04-26 15:21:13 发布

难得将就

最新推荐文章于 2024-04-26 15:21:13 发布

阅读量296

点赞数

文章标签： spark 大数据分布式

本文链接：https://blog.youkuaiyun.com/weixin_60196805/article/details/132250422

版权

一个Application由多个job组成，一个job由多个stage组成，一个stage由task组成。

Application

一个完整的Spark应用程序，包含多个Job，具体含多少个Job由action算子决定。
Spark Application运行再集群上时，主要由4个部分组成。
Driver：是一个JVM Process进程，spark应用程序就是运行在Driver上，由Driver执行。完成Cluster Manager与Executor之间进行协调。
Master：是一个JVM Process进程，主要负责资源调度和调度
Worker：1.存储RDD的某个或者某些Partition；2.启动线程和进程，对RDD上的Partition进行计算。
Executor：一个Woker上可以启动多个进程（Executor），由多个线程（task）组成；负责对RDD上Partition数据进行计算。
Application组成及其任务

Job

一个action算一个Job，每个Job负责完成一个的计算任务，由多个stage组成，具体含多少个stage由shuffle依赖决定。Job间时串行执行的，一个Job执行完成后才会执行下一个Job。

Stage

包含多少个task由最后一个分区数决定。各个stage之间按照顺序执行，宽窄依赖的边界就是stage的划分点（以shuffle为界，发生shuffle就会产生一个新的stage）。注意：最开始的action算子会创造一个stage，用以保证一个DAG至少由一个Stage。

Task

是一个Stage中的一个任务单元。负责对一个数据分区进行计算操作，可以并行执行。一个Satge的task个数由其末端RDD分区个数决定。如果该job有shuffle操作，则影响该stage个数的是shuffle算子的并行度。如果没有shuffle过程的化，影响task个数的是HDFS数据最开始的分区数。
Application组成