1.executor堆外内存
1.1理论
在实际项目中,有时候需要处理大量的数据,比如上亿、数十亿条数据,发现项目时不时地报错:shuffle file not found,executor lost,task lost,out of memory等等。
之所以出现上述问题,可能是因为executor的堆外内存不足,导致executor在运行的过程中,内存溢出。后续stage的task在运行的时候,可能要从之前的executor中拉取shuffle map output file文件,此时executor已经挂掉,关联的BlockManager也挂掉了,找不到文件。此时可能会报shuffle output file not found,resubmitting task,executor lost,导致spark作业彻底崩溃。
出现这种情况,可以调节一下executor的堆外内存,这样可以避免报错,也可能会带来性能的提升。
1.2参数调节
--conf spark.yarn.executor.memoryOverhead=2048
这个参数是在是spark-submit脚本里面设置,不是在spark代码里面设置。
默认情况下,堆外内存的大小是300M,但通常会影响spark作业的运行,需要调节这个参数到1024M、2048M或者更大。
调节完这个参数,可以避免某些JVM OOM(内存溢出)的问题,同时使整个spark作业的性能得到很大的提升。
2.连接等待时长
2.1理论
executor在读取数据时,优先从本地关联的BlockManager中读取。读取不到时,会通过TransferService去远程连接其他节点的executor的BlockManager读取数据。
这个时候,如果碰到executor的JVM在进行垃圾回收或其他操作,建立连接失败读取不到数据时,程序会卡住,并进入等待状态。spark默认的网络连接的超时时长为60s,60s后如果还是无法连接,则宣告失败。此时会报错。几次尝试之后,还是获取不到数据,会导致spark作业奔溃,也可能导致DAGSchedule反复提交几次stage,TaskSchedule反复提交几次task,这样会大大延长spark作业的时间。
此时,可以考虑调节连接的超时时长,比如设置成600秒:
--conf spark.core.connection.ack.wait.timeout=600