spark 终止运行_解决 Amazon EMR 上 Spark 中的“根据要求终止容器。退出代码 137”错误...

最新推荐文章于 2025-03-04 14:53:18 发布

庄明浩（rosicky311）

最新推荐文章于 2025-03-04 14:53:18 发布

阅读量689

点赞数

CC 4.0 BY-SA版权

文章标签： spark 终止运行

本文链接：https://blog.youkuaiyun.com/weixin_30499557/article/details/114470035

本文详细介绍了如何解决在 Amazon EMR 上运行 Apache Spark 作业时遇到的'根据要求终止容器，退出代码 137'错误。该错误通常是由于内存不足导致的。提供的解决方法包括增加驱动程序和执行程序内存、添加更多 Spark 分区、增加随机分区数量以及减少执行程序内核的数量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何解决 Amazon EMR 上 Spark 中的“根据要求终止容器。退出代码 137”错误？

上次更新时间：2020 年 1 月 8 日

我在 Amazon EMR 上的 Apache Spark 作业失败，并出现“根据要求终止容器”阶段故障：

Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in stage 3.0 failed 4 times, most recent failure: Lost task 2.3 in stage 3.0 (TID 23, ip-xxx-xxx-xx-xxx.compute.internal, executor 4): ExecutorLostFailure (executor 4 exited caused by one of the running tasks) Reason: Container marked as failed: container_1516900607498_6585_01_000008 on host: ip-xxx-xxx-xx-xxx.compute.internal. Exit status: 137. Diagnostics: Container killed on request. Exit code is 137

简短描述

当容器(Spark 执行程序)内存不足时，YARN 会自动将其终止。这会导致“根据要求终止容器。退出代码 137”错误。这些错误可能发生在不同的作业阶段，无论是窄还是宽转换。

解决方法

使用以下一种或多种方法来解决“退出状态: 137”阶段故障：

增加驱动程序或执行程序内存

通过调整 spark.executor.memory 或 spark.driver.memory 参数来增加容器内存(取决于导致错误的容器)。

在正在运行的集群上：

修改主节点上的 spark-defaults.conf。示例：

sudo vim /etc/spark/conf/spark-defaults.conf

spark.executor.memory 10g

spark.driver.memory 10g

对于单个作业：