记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程

一、问题现象:使用spark sql调用get_json_object函数后,报如下错误:yarn 容器被kill,导致任务失败,查看日志:Container killed by YARN for exceeding memory limits

使用spark命令:

/opt/software/spark-2.2.0-bin-hadoop2.6/bin/spark-sql \

--master yarn-client \

--driver-memory 2G \

--driver-cores 4  \

--num-executors 4 \

--executor-cores 4 \

--executor-memory 6G \

--conf "spark.default.parallelism=47"  \

--conf "spark.sql.shuffle.partitions=48" \

--conf "spark.sql.adaptive.enabled=true" \

--conf "spark.sql.adaptive.shuffle.targetPostShuffleInputSize=512000000"

 

 

二、问题分析过程:

1、既然executor内存不够,那么最先想到的就是增大executor-memory内存大小,从6G增大到12G  =》通过多次测试发现,有时任务能成功,有时还是报相同的错误,并且内存还越用越多

 

2、分析数据量发现其实并不大,也就几十万。以前上千万的数据量都不需要这么多内存。因此怀疑是get_json_object函数引起的问题

3、去掉get_json_object函数,果然任务非常流畅,而且内存调回6G依然是成功的

4、突然灵光一闪,spark.yarn.executor.memoryOverhead这个参数是spark excutor的堆外内存,用于 VM overheads, interned strings, other native overheads, etc。猜想get_json_object应该主要是用的堆外内存

5、spark.yarn.executor.memoryOverhead默认等于max( executorMemory * 0.10,384M),那么增大executorMemory再多,堆外内存实际增加的也比较少,因此考虑直接增大spark.yarn.executor.memoryOverhead值

6、设置spark.yarn.executor.memoryOverhead等于6G,executor-memory减少到4G,经过测试,任务非常稳定的成功

 

三、问题结论及终极解决方案:

    原因分析:该问题是由于get_json_object使用的是堆外内存,默认堆外内存只有max( executorMemory * 0.10,384M),

可根据Container killed by YARN for exceeding memory limits. 19.9 GB of 14 GB physical memory used,这里的19.9G估算出堆外内存实际需要19.9G*0.1约等于1.99G,因此最少应该设置spark.yarn.executor.memoryOverhead为2G,

为保险起见,我最后设置成了4G,脚本如下:

/opt/software/spark-2.2.0-bin-hadoop2.6/bin/spark-sql \

--master yarn-client \

-d operate_date=$operate_date  -d partition_day=$partition_day \

-f $one \

--name sparksql-$one \

--driver-memory 2G \

--driver-cores 4  \

--num-executors 4 \

--executor-cores 4 \

--executor-memory 4G \

--conf "spark.yarn.executor.memoryOverhead=4G" \

--conf "spark.default.parallelism=47"  \

--conf "spark.sql.shuffle.partitions=48" \

--conf "spark.sql.adaptive.enabled=true" \

--conf "spark.sql.adaptive.shuffle.targetPostShuffleInputSize=512000000"

 

 

Container killed by YARN for exceeding memory limits常用解决方案:

1、增大executor-memory内存大小

2、增大spark.yarn.executor.memoryOverhead内存大小

具体选用那一种,效果更好,需要结合具体场景

 

 

 

 

 

 

 

 

 

 

 

 

 

当一个容器被YARN杀死时,是因为它超出了已分配给它的内存限制。在这种情况下,容器的使用内存为54.2G,而给定的物理内存限制为53G。 YARN是用于在Apache Hadoop集群上进行作业调度和资源管理的框架。它负责为容器分配所需的资源,例如内存和CPU。每个容器都有一个分配给它的内存限制,以确保集群中的资源可以按照计划分配和使用。 当容器使用的内存超过了分配给它的限制时,YARN会将其标为超出内存限制,并杀死容器。这是为了防止容器继续使用过多的资源,从而导致集群中的其他作业受到影响。 要解决这个问题,有几种可能的方法。首先,可以检查作业的配置,确保容器被分配了足够的内存来执行其任务。如果容器的任务确实需要大量的内存,那么可以增加集群中的可用内存量,或者减少其他作业的内存需求,以便为该容器提供更多的资源。 此外,还可以尝试优化作业以减少其内存使用量。这可能包括使用更高效的算法或数据结构,或者优化代码以减少不必要的内存分配。通过这些方法,可以减少容器使用的内存量,并避免超出内存限制而被YARN杀死。 总之,当一个容器被YARN杀死因为超出内存限制时,需要检查作业的配置和资源分配,以及尝试优化作业以减少内存使用。这样可以避免类似的问题,并确保作业能够在分配的资源范围内正常运行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值