记一次nodemanager无法启动的情况

本文记录了一次YARN NodeManager故障的详细排查过程,从磁盘空间满、内存不足到最终的解决方案,包括清理/tmp目录、删除过时的缓存文件和重启服务等步骤。

 早上看CDH发现有一个nodemanager挂掉

然后查看对应的日志。 发现在日志里面并没有错误。,然然后发现服务器的磁盘满了,赶紧清理磁盘空间

清理磁盘的时候发现主要是/tmp目录下面生成了很多 

类似这种的日志。

清理完空间之后 重启nodemanager。发现还是启不来

到这里之后发现就停住了。。。。然后CDH页面就挂了nodemanager还是起不来。

继续查看

发现8042端口注册不上。 然后继续追述上个日志 只要nodemanager启动就会recovering  application

所以 find 一下

find /*  -name *application application_1560341746674_1515*

 发现 /data/yarn/nm/usercache/root/appcache/* 目录下面很多 类似的文件,时间为头一天晚上7点过,继续看zabbix监控 发现

 

内存不足,

然后晚上九点过显示磁盘空间不足,解决办法 

rm  -fr /data/yarn/nm/usercache/*

删除cache之后 重启nodemanager正常

 并且删除

/var/lib/hadoop-yarn/yarn-nm-recovery/*

 

问题分析:由于这台机器上跑大任务,导致内存不足,内存不足 yarnnodemanager会一直报警写到  /tmp目录下,产生很多大文件,进而导致磁盘不足,

删除/tmp 下面的日志之后 启动node 但是一直起不来,yarn会去cache里面 recovering任务,但是这些任务已经过时导致一直起不来,解决办法就是删除这些cache

  详细信息可以参考

https://community.cloudera.com/t5/Batch-Processing-and-Workflow/Yarn-NodeManager-fails-to-start-and-crashing-with-SIGBUS/m-p/67382#M3640

https://mapr.com/docs/61/AdministratorGuide/c-config-nodemanager-restart.html

转载于:https://www.cnblogs.com/ZFBG/p/11135425.html

### Hadoop集群配置Slave1仅启动NodeManager原因分析 在Hadoop集群环境中,如果遇到slave节点上仅有NodeManager服务正常运行而其他组件未能成功启动情况,通常涉及网络连接性和配置文件设置两个主要方面。 #### 网络连通性问题 当尝试建立从slave到master之间的通信时发生`NoRouteToHostException`异常表明存在严重的网络障碍。具体表现为无法通过指定端口(如案例中的18025)访问目标主机(master),这可能是由于防火墙阻止了必要的TCP/IP流量或是路由表配置不当所致[^1]。 #### 配置文件验证 即使经过多次确认配置项无误,仍需仔细审查所有相关联的XML配置文档(例如core-site.xml, hdfs-site.xml 和 yarn-site.xml)。特别是关于RPC地址、心跳间隔以及资源管理器位置等参数定义是否准确指向正确的IP地址和端口号。任何细微差异都可能导致预期之外的行为模式出现[^2]。 ### 解决方案建议 为了有效处理上述提到的问题并确保整个集群稳定运作: - **检查网络状况** 使用ping命令测试各节点间的可达性;利用telnet工具检验特定端口开放状态;必要时调整本地或远程机器上的iptables规则来允许YARN所需的服务端口通讯畅通无阻。 - **优化配置细节** 对比官方文档重新审视每一份配置模板内的关键字段设定,保证它们之间相互匹配且符合实际部署环境的要求。对于多网卡场景下的服务器而言,务必明确指出用于内部交互的那个接口名称及其对应的静态IP地址分配策略。 ```bash # 测试与Master节点的连通性 ping master_ip_address telnet master_ip_address 18025 ``` 另外值得注意的是,在Ubuntu系统环境下,默认情况下可能会启用apparmor安全模块从而影响某些应用程序的功能表现。可以通过临时禁用该功能来进行排除诊断工作。 ```bash sudo systemctl stop apparmor.service sudo systemctl disable apparmor.service ``` 最后重启ResourceManager和服务进程使更改生效,并密切监控日志录寻找潜在的新线索直至一切恢复正常为止。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值