SparkContext启动流程解析

 

Spark Context内部组件

SparkContext 是 Spark 程序主要功能的入口点,链接Spark集群,创建RDD、累加器和广播变量,一个线程只能运行一个SparkContext。

SparkContext在应用程序中将外部数据转换成RDD,建立了第一个RDD,也就是说SparkContext建立了RDD血缘关系的根,是DAG的根源。

SparkContext 内部组件:

  • SparkConf:Spark Application 的配置,用来设置 Spark 的 KV 格式的参数。使用 SparkConf 进行参数设置的优先级是高于属性文件,一旦 SparkConf 对象传给 Spark,会被其他组件 clone,并且不能再动态的被任何用户修改
  • SparkEnv: SparkEnv 是Spark的执行环境对象,其中包括与众多Executor执行相关的对象。Executor 有自己的 Spark 的执行环境 SparkEnv。在 local 模式下Driver会创建Executor,local-cluster部署模式或者 Standalone 部署模式下 Worker 的CoarseGrainedExecutorBackend 进程中也会创建Executor,所以SparkEnv 存在于 Driver 或者 CoarseGrainedExecutorBackend 进程中。
  • DAGScheduler:DAG调度器,调度系统中最重要的组件之一,负责创建job,将DAG的RDD划分为不同的stage,提交stage
  • TaskScheduler。任务调度器,调度系统中最重要的组件之一,按照调度算法对集群管理器已经分配给应用程序的资源进行二次调度后分配任务,TaskScheduler调度的 Task是 DAGScheduler创建的,因此DAGScheduler是TaskScheduler的前置调度器
  • SchedulerBackend:用于对接不同的资源管理系统
  • LiveListenerBus:事件总线。接收各个使用方的事件,以异步的方式对事件进行匹配和处理
  • SparkUI:用户界面,依赖计算引擎、调度系统、存储体系、作业、阶段、存储、执行器等组件的监控数据,以SparkListenerEnvent的形式投递给Live Listen
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值