streaming (微批处理):以wordcount为例 lines Dstream包含多个时间片段信息,将0-1m的时间片段信息底层转换RDD
Spark Core
在一个driver 中创建一个SparkContext 同时包括DAGscheduler调度器(划分stage 以宽/窄依赖进行划分阶段) 一个stage 划分一个tabk 交给Taskscheduler
spark-submit(提交任务) 向mast申请资源选一个work启动多个Exexutor 向sparjcontext 做汇报 划分stage 将个个分区的task 封装成taskset交给taskscjeduler 将个个task 分发给Exexutor执行
steaming也是包含在driver当中的 同样也有jobscheduler\recevertracker([持久化]对数据跟踪)
在work的Exexutor中启动receve接收流式数据有本地监控者向recevertracker汇报根据情报分发jobscheduler
(jobscheduler的理解
一个job包含多个task
一个sparkcore RDD的job 包含多个RDD task
一个streaming包含多个RDD的job
)