Spark独立集群Worker和Executor的概念

最新推荐文章于 2024-05-22 15:17:22 发布

原创最新推荐文章于 2024-05-22 15:17:22 发布 · 2.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark #worker #executor #cores #memory

Python 同时被 3 个专栏收录

69 篇文章

订阅专栏

JAVA

34 篇文章

订阅专栏

大数据

14 篇文章

订阅专栏

本文详细解读Spark独立集群中Worker和Executor的概念，阐述它们的角色区别：Worker作为硬件容器，提供CPU和内存资源；Executor是执行任务的应用程序，有特定的资源需求。当资源配置不当，可能导致任务无法执行或集群资源浪费。

文章目录

（一）Spark独立集群Worker和Executor的概念

（一）Spark独立集群Worker和Executor的概念

1.1 Worker（容器）

工作节点，相当于工作站，一台虚拟的计算机，有自己的CPU核心数，内存数。
我们把Worker假设成一台计算机，那么CPU核心数（假设2核），内存数（假设32GB）就是它的硬件条件。
实际上在Spark里面是这些配置决定的：

export SPARK_WORKER_CORES=2
export SPARK_WORKER_MEMORY=32g

1.2 Executor（程序）

工作程序，相当于计算机上运行的一个程序，有它要求CPU核心数，要求的内存数。
我们把Executor假设成一个程序，那么它需要运行在计算机上，它它对CPU核心数（假设1核），内存数（假设4GB），就是它运行的基本要求。

PS:同理driver也是个程序。

我们提交时可以指定这些参数：

SparkLauncher aL = new org.apache.spark.launcher.SparkLauncher()
				.setXXX(...)
                .setConf(SparkLauncher.DRIVER_MEMORY, "4g")
                .setConf(SparkLauncher.EXECUTOR_MEMORY,"4g")
                .setConf(SparkLauncher.EXECUTOR_CORES,"1")