Spark性能调优（七）---JVM调优之调节executor堆外内存与连接等待时长

最新推荐文章于 2022-04-10 15:52:02 发布

原创最新推荐文章于 2022-04-10 15:52:02 发布 · 351 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

BigData大数据相关专栏收录该内容

37 篇文章

订阅专栏

本文探讨了Spark作业中常见的Executor内存溢出和连接等待超时问题，阐述了如何通过调整堆外内存和连接超时参数来提升Spark任务的稳定性和性能。

1.executor堆外内存

1.1理论

在实际项目中，有时候需要处理大量的数据，比如上亿、数十亿条数据，发现项目时不时地报错：shuffle file not found,executor lost,task lost,out of memory等等。

之所以出现上述问题，可能是因为executor的堆外内存不足，导致executor在运行的过程中，内存溢出。后续stage的task在运行的时候，可能要从之前的executor中拉取shuffle map output file文件，此时executor已经挂掉，关联的BlockManager也挂掉了，找不到文件。此时可能会报shuffle output file not found,resubmitting task,executor lost，导致spark作业彻底崩溃。

出现这种情况，可以调节一下executor的堆外内存，这样可以避免报错，也可能会带来性能的提升。

1.2参数调节

--conf spark.yarn.executor.memoryOverhead=2048

这个参数是在是spark-submit脚本里面设置，不是在spark代码里面设置。

默认情况下，堆外内存的大小是300M，但通常会影响spark作业的运行，需要调节这个参数到1024M、2048M或者更大。

调节完这个参数，可以避免某些JVM OOM（内存溢出）的问题，同时使整个spark作业的性能得到很大的提升。

2.连接等待时长

2.1理论

executor在读取数据时，优先从本地关联的BlockManager中读取。读取不到时，会通过TransferService去远程连接其他节点的executor的BlockManager读取数据。

这个时候，如果碰到executor的JVM在进行垃圾回收或其他操作，建立连接失败读取不到数据时，程序会卡住，并进入等待状态。spark默认的网络连接的超时时长为60s，60s后如果还是无法连接，则宣告失败。此时会报错。几次尝试之后，还是获取不到数据，会导致spark作业奔溃，也可能导致DAGSchedule反复提交几次stage，TaskSchedule反复提交几次task，这样会大大延长spark作业的时间。

此时，可以考虑调节连接的超时时长，比如设置成600秒：

--conf spark.core.connection.ack.wait.timeout=600

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。