Hadoop机器运行一段时间后hadoop不能stop-all.sh的问题

最新推荐文章于 2023-06-16 11:18:44 发布

转载最新推荐文章于 2023-06-16 11:18:44 发布 · 901 阅读

文章标签：

#hadoop

Hadoop 专栏收录该内容

38 篇文章

订阅专栏

本文介绍了Hadoop在停止过程中出现的notasktrackertostop和nodatanodetostop错误原因及解决办法。该问题源于Hadoop依赖的datanode上的mapred和dfs进程号丢失。文章提供了一个解决方案：通过修改配置文件hadoop_env.sh中的HADOOP_PID_DIR参数，并调整其默认路径到/var/hadoop/pids目录来避免进程号文件被周期性删除。

显示报错no tasktracker to stop ，no datanode to stop
问题的原因是hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下，linux 默认会每隔一段时间（一般是一个月或者7天左右）去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop-hadoop-namenode.pid两个文件后，namenode自然就找不到datanode上的这两个进程了。
在配置文件hadoop_env.sh中配置export HADOOP_PID_DIR可以解决这个问题。
在配置文件中，HADOOP_PID_DIR的默认路径是“/var/hadoop/pids”，我们手动在“/var”目录下创建一个“hadoop”文件夹，若已存在就不用创建，记得用chown将权限分配给hadoop用户。然后在出错的Slave上杀死Datanode和Tasktracker的进程(kill -9 进程号)，再重新start-all.sh，stop-all.sh时发现没有“no datanode to stop”出现，说明问题已经解决。