hadoop学习（一）yarn jobs pending 和 jobs map % reduce 0%

最新推荐文章于 2024-08-26 03:22:02 发布

qq_42910523

最新推荐文章于 2024-08-26 03:22:02 发布

阅读量595

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据

本文链接：https://blog.youkuaiyun.com/qq_42910523/article/details/89648010

大数据专栏收录该内容

2 篇文章

订阅专栏

在学习Hadoop MapReduce时遇到了YARN作业pending状态和job进度停滞的问题。原因可能涉及YARN资源配置不足，如nodemanager和scheduler的内存设置。此外，解决hosts文件中的无效节点也可能有所帮助。在解决running状态下map/reduce进度为0%的问题时，发现可能是由于内存分配过少导致。修正mapred.site.xml中的mapred.job.tracker配置（应基于hdfs://而非https://）是关键。尽管仍有挑战，但已取得一些进展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

yarn运行mapreduce程序wordcount

yarn jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /input/text1 /output/text2_out

坑一：
yarn jobs 一直是 pending状态而不是 running 状态
是因为yarn-site.xml中对yarn.nodemanager.resource.memory-mb,yarn.scheduler.maximum-allocation-mb大小设置出现了问题，经过踩坑得出结论: 至少2048+ ,否则真的会卡的动不了…

搜索回答的时候看到有人讲是Hosts的问题修改/etc/hosts文件删掉无关节点虽然我不是这个问题但还是记录一下吧~
下面是我的配置：

 <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
   </property>

   <property>
        <description>The address of the applications manager interface in the RM.</description>
        <name>yarn.resourcemanager.address</name>
        <value>${yarn.resourcemanager.hostname}:8032</value>
   </property>
   <property>
        <description>The address of the scheduler interface.</description>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>${yarn.resourcemanager.hostname}:8030</value>
   </property>
<property>
        <description>The http address of the RM web application.</description>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>${yarn.resourcemanager.hostname}:8088</value>
   </property>
   <property>
        <description>The https adddress of the RM web application.</description>
        <name>yarn.resourcemanager.webapp.https.address</name>
        <value>${yarn.resourcemanager.hostname}:8090</value>
   </property>
<property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>${yarn.resourcemanager.hostname}:8031</value>
   </property>
   <property>
        <description>The address of the RM admin interface.</description>
        <name>yarn.resourcemanager.admin.address</name>
        <value>${yarn.resourcemanager.hostname}:8033</value>
   </property>
   <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
   </property>
   <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
   </property>
   <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>2048</value>
   </property>
   <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>2048</value>
   </property>

坑二：
jobs 是running状态的情况下但是map reduce job的进度一直是0%
搜了好久，试了好多方法也想了想得出的结论如下：

可能是内存分配太少的问题，我的total memory显示只有4GB，4GB的电脑我已经尽力了…
似乎正常都是二十几GB左右的样子，按理说我的主节点设置了2GB，子节点为1GB，可能虚拟内存的时候只计算了主节点乘节点数嘛… 大神求解，嘤嘤嘤~~~
我最后是因为mapreduce的配置出现了问题，修改了maprd.site.xml配置，之前配置也太粗心了，mapred.job.tracker属性的value应该是基于hdfs:// 而不是https://… 对原理还是理解不清晰，课程讲的太快了老师也不讲清楚就要考试了还是一知半解绝望了…

<configuration>
      <property>  
        <name>mapreduce.framework.name</name>  
        <value>yarn</value>  
      </property>
      <property>
        <name>mapred.job.tracker</name>
        <value>hdfs://192.168.11.5:9001</value>
      </property>
      <property>
      <name>mapred.local.dir</name>
       <value>/root/hadoop/var</value>
      </property>
      <property>
	<name>mapreduced.jobhistory.webapp.address</name>
	<value>master:19888</value>
      </property>
</configuration>

啊啊啊啊虽然编译器那块还是个坑，但是也算迈出一小步了，
明天还要加油鸭！！！
老大的新剧就要上了 5.7 破冰行动耶斯！