Hadoop执行Job时因超时自动kill原因及解决方案

最新推荐文章于 2021-11-25 17:04:39 发布

最新推荐文章于 2021-11-25 17:04:39 发布 · 922 阅读

文章标签：

#大数据 #shell

MapReduce 专栏收录该内容

54 篇文章

订阅专栏

本文探讨了Hadoop执行Job时因超时被自动终止的问题，包括原因分析及三种解决策略：调整配置文件mapred-site.xml中的超时时间、在代码中手动设置超时值以及在Mapper或Reducer中定期报告进度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop执行Job时因超时自动kill，信息如下：

Task attempt_201305231045_3281_m_000003_0 failed to report status for 600 seconds. Killing!

原因：

1.执行MR的时间过长，超过了mapred.task.timeout中设置的值

2.MR执行中因业务比较复杂，没有report status从而使得master感觉不到此task的存在而kill

解决方案：

方案1修改mapred-site.xml：

    <property>
        <name>mapred.task.timeout</name>
        <value>600000</value><!--默认为600S-->可以改的更长！
    </property>

方案2根据业务需要手动set值：

conf.setLong("mapred.task.timeout", 900000L);

方案3定时report status

在Mapper或者Reducer的时候，执行复杂的业务操作的时候report status

context.progress();

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dataee

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

mapreduce作业reduce被大量kill掉

快乐程序员的专栏

12-15

6120

之前有一段时间，我们的hadoop2.4集群压力非常大，导致提交的job出现大量的reduce被kill掉，相同的job运行时间比在hadoop0.20.203上面长了很多，这个问题其实是reduce 任务启动时机的问题，由于yarn中没有map slot和reduce slot的概念，且ResourceManager也不知道map task和reduce task之间的依赖关系，因此MRAppMaster自己需要设计资源申请策略以防止因reduce task过早启动照成资源利用率低下和map task因分

yarn application -kill application_id yarn kill 超时任务脚本

weixin_30617797的博客

09-14

1402

yarn application -kill application_id yarn kill 超时任务脚本需求：kill 掉yarn上超时的任务，实现不同队列不同超时时间的kill机制，并带有任务名的白名单功能此为python脚本，可配置crontab使用 # _*_ coding=utf-8 _*_ # !/usr/bin/pyth...

参与评论您还未登录，请先登录后发表或查看评论

关于"failed to report status for 600 seconds. killing"的错误

aiwode1234的专栏

06-17

875

在做CPU密集型的MR任务时，有时会出现failed to report status for 600 seconds. killing的错误，分析了一下，是因为task长时间在跑任务，没有向jobtracker发送心跳包。有以下方法可以改善这个问题。 1. 延长task超时时间这种方法通过修改配置项mapred.task.timeout来延长超时时间。默认是600000ms，可

转：集群提交MapReduce作业执行卡住问题解决方案

11-29

2689

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.youkuaiyun.com/WYpersist/article/details/80202055 关于MapReduce,Map能完全执行，Reduce执行到一半卡住不执行住了几个小时，死活停滞不前，发现后根据提示开始排错，进入50030，进入作业发现这说明作...

hdfs相关问题及解决方案归档

weixin_44976835的博客

08-26

3050

目录问题1：reduce预处理阶段shuffle时获取已完成的map的输出失败次数超过上限问题2：Too many fetch-failures问题3：处理MR速度特别的慢问题4：能够启动datanode，但无法访问，也无法结束问题5：节点断联问题6：JVM内存不够问题7：Hadoop添加节点的方法问题8：给单个node新加硬盘问题9：IO写操作出现问题问题10：HDFS退服节点的方法问题11：IO异常问题12：status of 255 error问题13：sort by value问题14：restar

hadoop2.7.5搭建高可用集群

Null的博客

03-25

2005

本文目的：搭建hadoop的高可用集群集群规划1.下载 hadoop-2.7.5-centos-6.7.tar.gz 安装包2.通过CRT软件上传到hadoop02号机器3.解压软件到apps目录下tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C ~/apps/4.修改hadoop-env.sh 配置文件先查看jdk安装路径echo $JAVA_HOME vi...

Hadoop总结

CharlesDavid

12-29

1190

Hadoop总结文章目录Hadoop总结Hadoop概述Hadoop核心组件Hadoop优势分布式文件系统 HDFSHDFS架构HDFS设计思路HDFS环境搭建HDFS的使用HDFS shell操作HDFS shell操作练习资源调度框架 YARN什么是YARNYARN产生背景YARN的架构和执行流程YARN环境搭建分布式处理框架 MapReduce什么是MapReduceMapReduce编程模型Hadoop Streaming 实现wordcount （实验了解）MapReduce实战利用MRJob

Hadoop配置归档

weixin_44976835的博客

08-24

391

Hadoop常用端口配置 1.HDFS端口参数描述默认配置文件例子值 fs.default.name namenode RPC交互端口 8020 core-site.xml hdfs://master:8020/ dfs.http.address NameNode web管理端口 50070 hdfs-site.xml 0.0.0.0:50070 dfs.datanode.address datanode　控制端口 50010 hdfs-site.xml 0.0.0.0:5

Query ID = root_20250514113053_03ebdf63-9031-450f-8ee1-ba3ce331c294 Total jobs = 3 Launching Job 1 out of 3 Number of reduce tasks is set to 0 since there's no reduce operator Cannot run job locally: Input Size (= 144346789) is larger than hive.exec.mode.local.auto.inputbytes.max (= 134217728) Starting Job = job_1743993045960_0012, Tracking URL = http://hadoop01:8088/proxy/application_1743993045960_0012/ Kill Command = /usr/local/hadoop/bin/mapred job -kill job_1743993045960_0012 Hadoop job information for Stage-1: number of mappers: 0; number of reducers: 0 2025-05-14 11:31:05,977 Stage-1 map = 0%, reduce = 0% Ended Job = job_1743993045960_0012 with errors Error during job, obtaining debugging information... FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask MapReduce Jobs Launched: Stage-Stage-1: HDFS Read: 0 HDFS Write: 0 FAIL Total MapReduce CPU Time Spent: 0 msec

热门推荐

走在前往架构师的路上

01-05

1万+

前言在使用hadoop集群的时候,所有的任务都是最终以Application的形式跑在集群中,不管你是自己写的MR程序亦或是你写的hive sql转化成的mr任务,最终都是以Application应用的身份在跑.这些Application跑完之后,这些信息在jobHistory中就可以看了,可以说hadoop在这方面做得真的非常完整.但是完善归完善.但是jobHistory可以说是一种"事后分析"

批量Kill yarn 任务

qq_42991654的博客

01-05

618

删除处于ACCEPTED状态的任务 for i in yarn application -list | grep -w ACCEPTED | awk '{print $1}' | grep application_; do yarn application -kill $i; done

hive 虚拟机下执行 HQL 被killed退出

beijihukk的博客

02-28

3935

背景：学习大数据，装了个虚拟机，搭载centos7的迷你，内存分配的512MB hive> select A.name,A.time > from > (select name,time,sum(count) from sale group by name, time) A join > (select name,time,sum(count) from sal

yarn 根据关键词批量杀死任务

zmqsdu9001的博客

04-12

1719

例如： for i in `yarn application -list | grep -w zhumengqi | awk '{print $1}' | grep application_`; do yarn application -kill $i; done 更换关键词，把zhumengqi换成自己的其他关键词即可 ...

Spark On Yarn任务超时监控-Shell

ai_1046067944的专栏

11-21

2443

最近在用spark跑任务，发现有些任务实际已经执行完成，但是就是占用资源，结束不了，用shell写了个yarn上application耗时监控脚本，超时自动杀掉。 #!/bin/bash #current_time=`date +'%Y-%m-%d %H:%M:%S'` current_time_temp=`date +'%s%N'` current_time=$[$current_ti...

Hadoop集群中MR任务一直卡住

weixin_44572693的博客

02-26

2854

集群三台，节点内存都是3G 版本 hadoop-2.7.4 hive-2.3.4 zookeeper-3.4.11 HIVE执行联合查询之后如下 WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different e...

yarn application -kill杀死yarn上任务

zhengzaifeidelushang的博客

11-25

3964

yarn application -kill杀死yarn上任务 yarn application -kill application_1628735904594_4607155

hive 研究：hive启动后自动关闭问题解决

weixin_30737433的博客

04-27

1477

使用 hive --service metastore & hive --service hiveserver2 & 启动hive后，隔一天使用jps查询发现2个RUNJAR消失了原因：使用&启动后在账户退出后会自动关闭进程解决： nohup hive --service metastore & nohup hive --servic...

大数据Hadoop平台监控与自动化实战：挑战与解决方案

本资源是一份名为"大数据Hadoop平台监控、预警及自动化"的48页PDF文档，由Sami Ben-Romdhane，eBay的杰出架构师，针对大规模Hadoop平台的管理挑战和解决方案进行深入探讨。随着eBay业务的迅速增长，Hadoop集群规模...