1、shuffle
2、MR on yarn运行流程
3、spark通信模型
4、spark执行流程
- 建立DAG
- 切分stage,形成taskSet(DAGScheduler)
- 将taskSet发送给worker执行(TaskScheduler)
从finalRDD开始自后向前递归划分stage,以shuffleDependency(宽依赖)为划分界限,每个stage形成一组过程相同数据分区不同的taskSet。
从finalRDD开始自后向前递归提交taskSet。
1、shuffle
2、MR on yarn运行流程
3、spark通信模型
4、spark执行流程
从finalRDD开始自后向前递归划分stage,以shuffleDependency(宽依赖)为划分界限,每个stage形成一组过程相同数据分区不同的taskSet。
从finalRDD开始自后向前递归提交taskSet。