spark中的资源配置总结

最新推荐文章于 2024-07-25 19:15:03 发布

原创最新推荐文章于 2024-07-25 19:15:03 发布 · 1.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #大数据 #big data

pyspark 专栏收录该内容

12 篇文章

订阅专栏

本文深入解析Spark中的worker和executor概念。worker是管理资源的实体，每个worker可配置一定数量的CPU核心，例如通过SPARK_WORKER_CORES设定。executor是在worker上运行任务的实例，其数量由worker的核数和spark.executor.cores设定。合理分配资源，如按每个executor占用一个核，可根据worker总核数和内存资源来确定executor的数量和内存大小。

spark中有太多的概念，有时候会分辨不清。

比如，什么是worker？什么是executor？

每个worker有多少CPU核？是否设置得合理？

要回答这些问题，首先要理解，spark-env.sh中的worker的配置是表示该worker能拿到的总资源。

如图所示，设置SPARK_WORKER_CORES=4，代表每个worker的总CPU资源是4个逻辑核。

worker就像是一个部门经理，握有资源，手下有具体干活的小弟：executors。

根据手里资源的多少，可以决定招多少个小弟。

所以，spark启动的时候，设置的–executor-cores和-executor-memory就决定了能启动多少个executor。

1. 通常情况下可以设置每个executore小弟有一个核，所以根据worker有多少个核，就可以启动多少个executor。即设置：spark.executor.cores=1

2. 根据worker的总CPU核数资源（在spark-env.sh中定义），计算出每个worker能启动多少个executore。

3. 根据给spark总的内存 TG，即：

spark.executor.memory = (TG - driver memory / worker总的核数

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。