
在DAGScheduler类中的HandleJobSubmitted是job调度的核心入口

进入了newStage()方法它会创建一个stage对象

进入submitStage()方法

进入getMissingParentStages方法()

进入submitWaitingStages()方法

stage划分算法总结
1,从finalStage倒推
2,通过宽依赖,来进行新的stage的划分
3,使用递归优先提交父stage
接下来是stage会创建task

进入getPreFerredLocasInternal()方法(task最佳位置计算算法)

本文详细介绍了Spark中DAGScheduler的工作原理,包括Job提交后的处理流程、Stage的划分算法及Task的最佳位置计算方法。
901

被折叠的 条评论
为什么被折叠?



