今天突然发现Hadoop集群中的一台DataNode启不来,其他节点都是正常的,此DataNode启动过程中日志只有以下错误信息,
2019-05-06 16:36:01,106 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: RECEIVED SIGNAL 15: SIGTERM
除了上述错误信息,也没有其他更有效的信息了,感觉很是怪异。搜索了一下上述的错误,网上各种情况都有。
回想起这个集群近几天的修改情况,怀疑是不是系统被动过了。于是检查了一下防火墙、selinux、ntp、hostname等常规配置均正常。
通过history查看历史记录,发现有几条命令修改了/usr/lib64下面的东西,于是对比和其他正常节点上的/usr/lib64目录,发现多出来了以下两个文件,
-rw-r–r-- 1 root root 731248 May 3 15:34 libssl.a
-r-xr-xr-x 1 root root 478496 May 3 15:34 libssl.so.1.0.0
不太确定这两个文件的作用是啥,先移到别的节点试试吧,
[root@sbh07 lib64]# mv libssl.a libssl.so.1.0.0 /data/lib_bak/
之后通过以下步骤确保Agent服务正常重启,
[root@sbh07 lib64]# service cloudera-scm-agent stop
Stopping cloudera-scm-agent (via systemctl): [ OK ]
[root@sbh07 lib64]#
[root@sbh07 lib64]#
[root@sbh07 lib64]# ps -ef | grep super
root 11307 1 0 Apr19 ? 00:08:41 /usr/lib64/cmf/agent/build/env/bin/python /usr/lib64/cmf/agent/build/env/bin/supervisord
root 11817 2257 0 16:30 pts/2 00:00:00 grep --color=auto super
[root@sbh07 lib64]# kill -9 11307
[root@sbh07 lib64]# service cloudera-scm-agent start
Starting cloudera-scm-agent (via systemctl): [ OK ]
现在重新通过CM启动此DataNode节点,启动成功!