Spark性能调优 (七)---JVM调优之调节executor堆外内存与连接等待时长

1.executor堆外内存

1.1理论

       在实际项目中,有时候需要处理大量的数据,比如上亿、数十亿条数据,发现项目时不时地报错:shuffle file not found,executor lost,task lost,out of memory等等。

       之所以出现上述问题,可能是因为executor的堆外内存不足,导致executor在运行的过程中,内存溢出。后续stage的task在运行的时候,可能要从之前的executor中拉取shuffle map output file文件,此时executor已经挂掉,关联的BlockManager也挂掉了,找不到文件。此时可能会报shuffle output file not found,resubmitting task,executor lost,导致spark作业彻底崩溃。

       出现这种情况,可以调节一下executor的堆外内存,这样可以避免报错,也可能会带来性能的提升。

1.2参数调节

       --conf spark.yarn.executor.memoryOverhead=2048

       这个参数是在是spark-submit脚本里面设置,不是在spark代码里面设置。

       默认情况下,堆外内存的大小是300M,但通常会影响spark作业的运行,需要调节这个参数到1024M、2048M或者更大。

      调节完这个参数,可以避免某些JVM OOM(内存溢出)的问题,同时使整个spark作业的性能得到很大的提升。

2.连接等待时长

2.1理论

       executor在读取数据时,优先从本地关联的BlockManager中读取。读取不到时,会通过TransferService去远程连接其他节点的executor的BlockManager读取数据。

       这个时候,如果碰到executor的JVM在进行垃圾回收或其他操作,建立连接失败读取不到数据时,程序会卡住,并进入等待状态。spark默认的网络连接的超时时长为60s,60s后如果还是无法连接,则宣告失败。此时会报错。几次尝试之后,还是获取不到数据,会导致spark作业奔溃,也可能导致DAGSchedule反复提交几次stage,TaskSchedule反复提交几次task,这样会大大延长spark作业的时间。

      此时,可以考虑调节连接的超时时长,比如设置成600秒:

      --conf spark.core.connection.ack.wait.timeout=600
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值