Spark资源分配

最新推荐文章于 2023-02-06 17:09:46 发布

原创最新推荐文章于 2023-02-06 17:09:46 发布 · 2.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #大数据

spark 专栏收录该内容

9 篇文章

订阅专栏

一、整体情况

1、服务器资源

5台datanode节点

cpu：48 查看命令：cat /proc/cpuinfo | grep processor | wc -l

内存：128G 查看命令：free -h

2、yarn资源

yarn.nodemanager.resource.cpu-vcores = 36

yarn.nodemanager.resource.memory-mb = 70G

注：datanode节点上还部署这其他程序。

3、spark资源配置项

--driver-cores Driver核心数

--driver-memory Driver内存数

--num-executors Executor个数

--executor-cores Executor核心数

--executor-memory Executor内存数

二、个人思考

1、driver资源分配

driver本身不负责计算，并且我的spark程序不涉及到需要driver端加载或者driver搜集的代码，所以driver端的资源可以给的较少。

--driver-cores=2

--driver-memory=2G

2、executor资源分配

executor负责实际的计算任务，应该根据整体资源情况适当多分配资源。

2.1 内存：

部分资料上建议executor的内存数不建议超过5G，否则会有性能损失。所以暂时设置为4G。

((5 * 70) - 2) / 4 = 87，单考虑内存的话，可以支持87个executor。

2.2 CPU：

部分资料上建议executor的核心数为4个。

((5 * 36) - 2) / 4 = 44 ，单考虑内存的话，可以支持44个executor。

2.3 汇总

两者取小值，假定最大executor个数为44个。

得出以下假定的集群最大资源分配：

--num-executors = 44

--executor-cores = 4

--executor-memory = 4G

总资源消耗：

总内存：44 * 4 = 176G

总CPU：44 * 4 = 176

总task：44 * 4 * 2 = 352（官方建议每个cpu运行2-3个task）

3、总结

以上是个人计算出的最大资源分配。但是在实际使用过程中，并不需要这么高的并行度，比如一些简单的etl任务，如果最后一个stage的并行度过高，会生成大量小文件，这是不希望看到的。

因此，我选择根据实际的并行度设计的情况下，保持executor的cpu和内存数不变，酌情减少executor个数。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。