Spark-Scheduler:一,概述

本文深入解析Spark的调度机制,重点介绍DAGScheduler和TaskScheduler的角色与工作流程。DAGScheduler负责构建并划分任务为Stage,而TaskScheduler则将具体任务分配至集群节点执行,确保并行处理效率。

Spark Scheduler:DAGScheduler和TaskScheduler。构建的不同的RDD,因为代码逻辑组成了一个DAG。Spark提供了多种转换和动作,将复杂的拓扑隐藏掉,使用户简单的使用。

 

任务调度逻辑视图

由上图很容看出DAGScheduler是干嘛的。

DAGScheduler根据依赖关系建立DAG,然后将DAG划分不同的Stage(阶段),然后每组由可以并发执行的一组Task构成。(这些Task逻辑完全相同只是作用的数据不同)

由上图DAG在划分完DAG后,会将Stage里面的task提交到TaskSchedulerTaskScheduler通过Cluster Manager集群管理,将task分配给不同的节点上的worker通过executor执行;

TaskScheduler的实现有细微差别对于不同的资源管理框架下:对于Local、Standalone和Mesos来说,它们的TaskScheduler就是TaskSchedulerImpl;对于YARN Cluster和YARN Client的TaskScheduler的实现是继承自TaskSchedulerImpl;

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值