第二章 Spark基础
2.3 Spark运行架构与原理
2.3.1 基本概念
在学习Spark运行架构与工作原理之前,首先需要了解几个重要的概念和术语。
Application (应用) : Spark 上运行的应用。Application中包含 了一个驱动器(Driver) 进程和集群上的多个执行器(Executor) 进程。
●Driver Program (驱动器) :运行main()方法并创建SparkContext的进程。
●Cluster Manager (集群管理器):用于在集群.上申请资源的外部服务(如: 独立部署的集群管理器、Mesos或者Yarn)。
●Worker Node (工作节点) :集群上运行应用程序代码的任意一个节点。
●Executor (执行器) :在集群工作节点上为某个应用启动的工作进程,该进程负责运行计算任务,并为应用程序存储数据。
●Task (任务) :执行器的工作单元。
●Job (作业) :一个并行计算作业,由一组任务(Task) 组成,并由Spark的行动(Action) 算子(如: save、collect)触发启动。
●Stage (阶段) :每个Job可以划分为更小的Task集合,每组任务被称为Stage.1.1.2
2.3.2 Spark集群运行架构
Spark是基于内存计算的大数据并行计算框架,比MapReduce计算框架具 有更高的实时性,同时具有高效容错性和可伸缩