hadoop 异常 reduce长时间卡住停滞不前的问题

Hadoop集群故障排查

最新推荐文章于 2023-06-01 11:48:24 发布

最新推荐文章于 2023-06-01 11:48:24 发布 · 1.3k 阅读

文章标签：

#大数据

本文记录了一次Hadoop集群中因多个磁盘损坏导致的任务堵塞问题。通过监测发现datanode磁盘故障，并采取更换磁盘及重启节点措施。但随后出现任务执行卡顿现象，最终通过移除问题节点解决了该问题。

单个节点的命名问题也会导致这个问题，具体解决办法：

http://blog.youkuaiyun.com/lxpbs8851/article/details/11820601

磁盘损坏的解决办法：

起因：

datanode的磁盘挂掉了2个

昨天的任务跑完了之后，检查了下dfsadmin -report

监测到集群之中有个节点的 Configured Capacity 比其它的节点少了差不多2个磁盘的容量；

然后去检查了下这个节点发现确实有2个磁盘出了问题。

于是。重启换磁盘，重新启动了节点。

然后在此节点上执行了balancer

问题出现了：

早上到公司，发现基本上所有的任务全部都hold了，平时只需要2分钟跑完的任务，一直堵在那边。

后台执行任务，发现了一个奇怪的现象，有些任务能够顺利的进行，而另外大部分的任务执行的时候出现

map能达到100% 但是reduce基本上执行到30% 或者32% 的时候会卡住等上半个小时也不会前进。

临时的解决办法：

查询了下昨天新增的节点，由于最近才接触到这个集群，发现这个节点的数据已经有大半年没有更新了，意思就是死了大半年了、

于是果断的干掉了这个节点。

重新执行被堵住的任务，任务终于能够顺利的进行了。

更加详细的原因，还需要时间去查证。

原因找到了：

是因为这个datanode上面的多个磁盘都坏掉了。

处理过程：

http://blog.youkuaiyun.com/lxpbs8851/article/details/17503805

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_11790

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Hadoop-MapReduce作业长时间卡死问题解决方法.doc

06-30

### Hadoop MapReduce作业长时间卡死问题解决方法知识点总结 #### 问题背景在对Hadoop MapReduce进行数据预处理时，作业频繁出现长时间卡死现象，导致集群资源占用高，影响整体作业的调起和时效性。主要表现为...

hadoop_join.jar.zip_hadoop_hadoop query_reduce

09-20

在大数据处理领域，Hadoop和MapReduce是两个至关重要的概念，它们构成了大数据处理的基础框架。本文将深入探讨如何使用Hadoop和MapReduce进行高效的Join查询，并解析如何通过`hadoop_join.jar`这个工具来实现这一...

参与评论您还未登录，请先登录后发表或查看评论

HQL调优实操1 —— reduce卡住

张之海的博客

07-01

454

1 问题任务执行缓慢。卡顿日志如下： 2021-07-01 10:19:04 log INFO - Starting Job = job_1625097332819_16902, Tracking URL = http://c2-xxx-hadoopxxx.bj:8088/proxy/application_xxxxxxxx_16902/ 2021-07-01 10:19:04 log INFO - Kill Command = /opt/cloudera/parcels/CDH/lib/hadoop/b

Hadoop开发遇到的问题之reduce卡住

weixin_33912638的博客

08-26

304

遇到的问题描述：在hadoop上面执行程序，程序运行之后能够正常执行。一切似乎都是正常的，然而过了一段时间之后程序便开始阻塞直到程序超时退出（如下）。 14/08/19 21:17:51 INFO mapred.JobClient: map 99% reduce 71% 14/08/19 21:17:54 INFO mapred.JobClient: map 99% reduce 75% ...

hadoop 卡主_Hadoop开发遇到的问题之reduce卡住

weixin_39710288的博客

12-22

184

attempt_201408192045_0002_m_000196_2: [2014-08-19 21:16:44 WARN] [main] (org.apache.hadoop.mapred.Child:291) - Error running childattempt_201408192045_0002_m_000196_2: java.io.IOException: Index:0, Si...

hadoop 程序在运行时 reduce过程卡在某个进度不动的问题

xp152167的博客

10-21

8022

今天写好hadoop 程序之后，进行线上测试，驶入数据为一个hive表的文件，location到了一个hdfs目录下，然后跑hadoop的过程中，map阶段没有出现问题，但是每次到了reduce阶段，进度都卡在33%不动了，刚开始以为是集群问题，后来重新启动了几次任务，都是这种情况。可能的情况1：后来在stackoverflow上找到了答案，这是hadoop上数据倾斜造成的问题（我的hiv

hadoop map 100% reduce0%就卡住了,解决办法

逸兴遄飞的专栏

07-04

7703

今日转ubuntu下学习hadoop，但是很不

Analysis-of-Stock-Market-using-Hadoop-Map-Reduce:使用Hadoop Map Reduce分析股票市场

03-07

使用Hadoop Map Reduce分析股票市场如何运行程序？首先在您的系统中安装Hadoop。请按照以下步骤进行安装然后开始执行给定的命令 cd hadoop-3.2.2 / sbin ./start-dfs.sh ./start-yarn.sh jps 导出HADOOP_...

hadoop运行计算pi或running job卡住或 map 0% reduce 0%

空空说技术的博客

04-15

4899

1.出现MapReduce任务运行到running job卡住一：如下异常： Starting Job 16/06/30 01:15:34 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.10.50:8032 16/06/30 01:15:35...

Hadoop Map Reduce 教程.doc

09-21

Hadoop Map Reduce 教程.doc

Hadoop MapReduce作业卡死问题的解决方法.docx

10-24

Hadoop MapReduce作业卡死问题的解决方法.docx

一次因为数据问题引起的reduce被卡住streaming作业问题排查

快乐程序员的专栏

03-21

3828

广告产品技术部有一个作业总是卡在某个reduce上，运行了好几个小时也运行不完，经过他们初步排查找不着问题原因，发邮件让我帮看看，我看了一下这个streaming作业是用python实现的，而且听他们描述，3月17之前该作业是没问题的，以下是可能存在问题的地方：

干货丨Hadoop MapReduce 作业长时间卡死怎么办？

weixin_54750412的博客

04-12

2104

转自@twt社区，作者：孟洋。 1. 问题描述当前，我们通过编写Hadoop MapReduce程序对来自上游的源数据文件进行贴源预处理加工。源数据文件发到Hadoop集群后，我们的预处理程序会对源数据进行编码转换、数据去重、加时间拉链、数据清洗、错误数据处理等操作，生成贴源的ODS层数据，供上层建模使用。一直以来系统运行稳定，未出现过问题。但一段时间以来部分源文件的预处理作业频繁出现作业长时间卡死的问题，导致Hadoop集群资源被长时间占用，其他作业因资源不足而无法正常调起，影响了预处理加工的时效性.

hadoop job解决大数据量关联时数据倾斜的一种办法

weixin_34376562的博客

09-01

369

http://www.geminikwok.com/2011/04/02/hadoop-jobè§£å³å¤§æ°æ®éå³èæ—¶æ°æ®å¾æçä¸ç§åæ³/ 数据倾斜是指，map /reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他ke...

【问题解决】Hadoop 执行 MapReduce卡死问题

兀坐晴窗独饮茶

05-29

3371

运行MapReduce 卡死 , 截图如下 1.如果是在虚拟机配置的 Hadoop 直接编辑 yarn-site.xml 文件 <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>2048</value> </property...

Hadoop运行MapReduce命令卡住的问题

imjavaxb的博客

12-18

957

我的原因是fair-scheduler.xml文件没有配置，配置好后便可正常使用。配置如下： yarn-site.xml: <property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.res...

Hadoop运行mapreduce卡住或者一直停在map 0% reduce 0%的解决方案

最新发布

08-21

在Hadoop任务中，当reduce阶段卡在99%时，通常与数据倾斜、资源配置或系统配置有关。以下是针对这一问题的分析与解决方案： ### 数据倾斜问题 Hadoop任务在reduce阶段卡住的主要原因之一是**数据倾斜**。当数据分布不均时，某些reduce任务需要处理远多于其他任务的数据，导致整体任务进度被拖慢。例如，在执行Join或Group By操作时，若某些key的数据量特别大，这些key会被分配到同一个reduce中处理，从而形成瓶颈。解决此类问题的方法包括： - **增加reduce数量**：通过设置`hive.exec.reducers.bytes.per.reducer`参数调整每个reduce处理的数据量，从而更均匀地分配数据[^1]。 - **使用salting技术**：对倾斜的key进行加盐处理，将原本相同的key分散到不同的reduce中处理，减少单个reduce的负载。 - **优化Join操作**：对于大表与小表的Join，可以考虑使用Map Join，将小表加载到内存中，避免reduce阶段的Join操作。 ### 资源配置问题另一个导致reduce卡住的原因是**资源不足**。YARN作为Hadoop的资源调度器，若配置不当，可能导致任务无法获得足够的内存或CPU资源，从而卡在reduce阶段。可以通过调整以下YARN配置来优化资源分配： - `yarn.nodemanager.resource.memory-mb`：表示每个NodeManager可管理的物理内存总量。若任务内存需求较大，可适当增加此值，例如设置为20480MB。 - `yarn.scheduler.minimum-allocation-mb`：表示每个Container可申请的最小内存。适当调整此值可以提高资源利用率。 - `yarn.nodemanager.vmem-pmem-ratio`：虚拟内存与物理内存的比例。若任务需要较多虚拟内存，可适当增加此值，例如设置为2.1[^4]。 ### 系统配置问题此外，**系统配置错误**也可能导致reduce任务卡住。例如，主机名配置不一致可能影响Hadoop节点之间的通信。确保以下配置正确： - `/etc/sysconfig/network`中的主机名应与`slaves`文件中配置的主机名一致。 - 若修改过主机名，需确保所有相关配置文件同步更新，以避免节点无法正确识别彼此[^3]。 ### 示例配置调整代码以下是一个YARN配置调整的示例，可在`yarn-site.xml`中添加： ```xml <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>20480</value> </property> <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>2048</value> </property> <property> <name>yarn.nodemanager.vmem-pmem-ratio</name> <value>2.1</value> </property> ``` ### 总结解决Hadoop reduce任务卡在99%的问题，需从数据倾斜、资源配置和系统配置三个方面入手。通过优化数据分布、调整YARN参数以及确保系统配置一致性，可以有效提升任务执行效率，避免任务卡顿。 ---