Spark基本概念
在讲解Spark作业memory使用前,确保理解以下Spark 基本概念:
- Application: 基于Spark的用户程序,包含了一个driver program 和 集群中多个的executor
- Driver:运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program
- Executor: 是为某Application运行在worker node上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上。每个Application都有各自独立的executors。
- Task: 被送到某个executor上的工作单元
- RDD:Spark的基本计算单元,可以通过一系列算子进行操作
Spark on Yarn 运行模式及线上配置
Spark on YARN的运行架构图:
Spark on YARN模式下,每一个Spark Executor将作为一个YARN Container运行。<