前言
从Spark执行流程来顺序学习Spark内部核心原理
1.Spark应用提交
(1)向Yarn提交
(2)ApplicationMaster,Driver,Executor
2.Spark内部组件及通信
(1)通信原理 -IO
(2)组件内部
(3)组件之间
3.Spark作业调度
(1)Application
(2)逻辑代码 => RDD
(3)Job => 行动算子
(4)Stage 的划分 => 转换算子 => 依赖关系
(5)Task(Partition)
4.任务的执行
(1)内容
(2)序列化(累加器、KRYO)
(3)调度
(4)计算
(5)Shuffer
(6)内存(Cache)
(7)累加器
本文深入解析Spark的执行流程,从应用提交到任务执行的全过程。涵盖了Spark的内部组件、通信原理、作业调度机制,以及任务执行过程中的关键环节,如序列化、调度、计算等。
328

被折叠的 条评论
为什么被折叠?



