前言
从Spark执行流程来顺序学习Spark内部核心原理
1.Spark应用提交
(1)向Yarn提交
(2)ApplicationMaster,Driver,Executor
2.Spark内部组件及通信
(1)通信原理 -IO
(2)组件内部
(3)组件之间
3.Spark作业调度
(1)Application
(2)逻辑代码 => RDD
(3)Job => 行动算子
(4)Stage 的划分 => 转换算子 => 依赖关系
(5)Task(Partition)
4.任务的执行
(1)内容
(2)序列化(累加器、KRYO)
(3)调度
(4)计算
(5)Shuffer
(6)内存(Cache)
(7)累加器