spark提交job任务,源码分步骤拆解

Spark Job提交与执行详细解析
本文详细介绍了Spark作业提交的整个流程,包括任务提交、DAG图创建、计算Task运行的最佳位置以及TaskSet的创建。从driver进程的创建到executor的启动,再到DAGScheduler如何拆解任务为DAG图,以及TaskScheduler如何根据stage划分taskset并提交到executor执行。文章深入到源码层面,解析每个关键步骤的具体实现。

流程

  1. spark客户端提交job
  2. 通过反射创建driver进程
  3. driver创建sparkContext对象
  4. 初始化sparkContext过程中,构建DAGScheduler和TaskScheduler
  5. TaskScheduler根据后台进程去连接Master向Master注册Application
  6. Master接收到Application的注册后,根据资源调度算法,在spark集群中为app启动多个executor
  7. master为每一个executor分配资源
  8. executor反向注册至driver,drvier完成sparkContext初始化、
  9. DAGScheduler根据任务进行job拆解成DAG图,划分stage
  10. TaskScheduler根据stage划分taskset
  11. taskScheduler会把Taskset里面的每一个pipeline提交到executor中执行
  12. 每一个executor都有一个线程池 ,executor会从根据每一个线程运行给一个TaskRunner
  13. 每一个task根据partition执行算子和函数

分步骤拆解详细流程

提交任务

提交任务行为是由执行算子创建的,比如foreach,count,collect等,标志性的表现就是在这些算子的源码中有一条sc.runJob,而其他转化型算子返回的是rdd,并不执行run操作

DAG图创建

  1. sc类中1928行runjob方法执行,会执行其中的dagScheduler的runJob方法

  2. dagScheduler中的runJob方法核心模块是submitJob也就是提交job

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值