问题:cloudera-scm-agent已死,但pid文件存在
背景: 公司因为周末停电,所以关闭了cloudera集群。这是启动集群的时候出现的问题

定位错误的过程:
首先查看cloudera-scm-server的日志,发现日志刷到出现7180端口的过程中有一个小小的Exception,似乎与图中的这个错误无关。但是最后这个cloudera的登录界面是可以成功上去的。
然后就百度开始各种搜索。。。并没有搜索到有价值的信息
然后检查自己的 各项操作是否已经完善,于是将进程一个一个的中断掉,然后检查各个命令的状态,例如:
./cloudera-scm-server status
#cloudera-scm-server 已停止
./cloudera-scm-agent status
#cloudera-scm-agent已死,但pid文件存在
这下就有疑问了,为什么这个东西还留着一个pid文件呢
然后开始搜索如何解决这个问题:
有的人说:进入 /var/run/ 里面找到 cloudera-scm-agent里面删除这个pid文件
但是当我进去寻找这个文件的时候,并不存在这个文件!
然后我去寻找一下cloudera-scm-agent的日志,发现日志里面的内容长这样

接着我就依照着这个日志内容里面提到的路径,到这个路径下果然就发现了这个pid的文件。然后我就将这个文件删除了!
接着我校验了一下例如:cloudera-scm-agent的文件的

当cloudera集群因停电重启时遇到cloudera-scm-agent已死但pid文件存在的问题。通过查看日志、检查进程状态及删除pid文件,最终成功重启集群。启动前需确保cloudera-scm-server和cloudera-scm-agent已停止,日志对于排查错误至关重要。
最低0.47元/天 解锁文章
2712

被折叠的 条评论
为什么被折叠?



