相关概念
Client:客户端进程,负责提交作业到Master。
Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。
Worker:Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动Driver和Executor。
Driver: 一个Spark作业运行时包括一个Driver进程,也是作业的主进程,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。

本文深入剖析Spark作业的执行过程,从Client提交作业到Master开始,讲解Master如何管理Worker,启动Driver和Executor。详细阐述Driver、Executor、Stage和Task的角色与交互,以及DAGScheduler如何构建Stage,TaskScheduler如何分配Task执行。还介绍了窄依赖、宽依赖以及缓存管理在作业执行中的作用。
最低0.47元/天 解锁文章
5449

被折叠的 条评论
为什么被折叠?



