Hadoop集群无法停止 no namenode to stop

最新推荐文章于 2025-05-06 11:03:23 发布

原创最新推荐文章于 2025-05-06 11:03:23 发布 · 1.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Hadoop 专栏收录该内容

1 篇文章

订阅专栏

在尝试调优Hadoop集群时，遇到无法停止的问题。经过排查，发现由于pid文件在/tmp目录被删除，导致进程无法正常停止。通过检查脚本和配置，确定解决方案是设置HADOOP_PID_DIR环境变量，避免pid文件存储在/tmp。最终通过修改环境变量并重启集群，成功解决了问题。

发现问题的起因是，今天规划对hadoop的一些配置参数进行调优。停hadoop集群的时候发现停不下来。输出如下：

1、查找问题

输出显示找不到namenode、datanode等进程，但是jps查看所有进程都正常运行着。原因能存在执行的hadoop/sbin的sh脚本里。百度没有查到合适的解决办法。

于是反查stop-all.sh脚本。发现stop-all.sh 调用的stop-dfs.sh和stop-yarn.sh。两者又调用的hadoop-daemon.sh。

查看hadoop-daemon.sh（以hdfs为例）代码：

定位到，no namenode to stop 的原因是 $pid 这个文件不存在。于是向上找 $pid。

$pid是由三个变量拼接而成路径。继续向上找：

可见$pid路径存储着pid文件，并且如果没有配置的话，默认是/tmp。查可以环境变量中并没有响应的配置。考虑到/tmp目录存在定时清理的情况，大概率是hadoop启动时间长了，pid文件被系统给删除了。

查了一下果然没有。

2、问题处理

既然服务通过命令停对应的进程，去每台服务器kill相应的进程。但是重启的话，pid文件肯定不能再放在/tmp目录了。需要要手动指定一个HADOOP_PID_DIR。

比较简单的一个办法就是去该hadoop-daemon.sh的文件，把默认的/tmp替换成想要的路径。但是本着进来不动源码的原则，最好不要这么做。

另外一个方法就是把HADOOP_PID_DIR设置为环境变量。考虑使用场景较小，没有必要写入系统环境变量。可以写入hadoop的环境变量hadoop-env.sh中，每次启动都会加载hadoop-env.sh。

重启hadoop集群，查看相应的pid路径，pid文件已存在，且不用担心被删除的问题。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。