spark中如何划分stage

最新推荐文章于 2024-08-26 13:17:52 发布

原创最新推荐文章于 2024-08-26 13:17:52 发布 · 842 阅读

CC 4.0 BY-SA版权

Spark Application中的job由Stage组成，Stage划分基于宽依赖。Action如collect触发job执行，DAGScheduler通过EventLoop处理JobSubmitted，创建Stage并建立依赖关系。每个Stage由一系列窄依赖算子或遇到宽依赖时划分，确保Stage间的正确执行顺序。

1.Spark Application中可以因为不同的Action触发众多的job，一个Application中可以有很多的job，每个job是由一个或者多个Stage构成的，后面的Stage依赖于前面的Stage，也就是说只有前面依赖的Stage计算完毕后，后面的Stage才会运行。
2.Stage划分的依据就是宽依赖，何时产生宽依赖，例如reduceByKey,groupByKey的算子，会导致宽依赖的产生。
3.由Action（例如collect）导致了SparkContext.runJob的执行，最终导致了DAGScheduler中的submitJob的执行，其核心是通过发送一个case class JobSubmitted对象给eventProcessLoop。eventProcessLoop是DAGSchedulerEventProcessLoop的具体实例，而DAGSchedulerEventProcessLoop是eventLoop的子类，具体实现EventLoop的onReceive方法，onReceive方法转过来回调doOnReceive
4.在doOnReceive中通过模式匹配的方法把执行路由到
5.在handleJobSubmitted中首先创建finalStage，创建finalStage时候会建立父Stage的依赖链条
总结：以来是从代码的逻辑层面上来展开说的，可以简单点说：写介绍什么是RDD中的宽窄依赖，然后在根据DAG有向无环图进行划分，从当前job的最后一个算子往前推，遇到宽依赖，那么当前在这个批次中的所有算子操作都划分成一个stage,然后继续按照这种方式在继续往前推，如在遇到宽依赖，又划分成一个stage,一直到最前面的一个算子。最后整个job会被划分成多个stage,而stage之间又存在依赖关系，后面的stage依赖于前面的stage。