spark-submit提交代码
执行new SparkContext(),在SparkContext里构造DAGScheduler和TaskScheduler.
TaskScheduler会通过后台的一个进程,连接Master,向Master注册Application。
Master接收到Application请求后,会使用相应的资源调度算法,在Worker上为这个Application启动多个Executer。
Executor启动后,会自己反向注册到TaskScheduler中。
所有Executor都注册到Driver上之后,SparkContext结束初始化,接下来往下执行我们自己的代码。
每执行到一个Action,就会创建一个Job。Job会提交给DAGScheduler。
DAGScheduler会将Job划分为多个stage,然后每个stage创建一个TaskSet.
TaskScheduler会把每一个TaskSet里的Task,提交到Executor上执行。
Executor上有线程池,每接收到一个Task,就用TaskRunner封装,然后从线程池里取出一个线程执行这个task。
(TaskRunner将我们编写的代码,拷贝,反序列化,执行Task)
(每个Task执行RDD里的一个partition)