今天遇到一个集群重启后,gcware正常,gcluster和gnode都显示CLOSE状态,经过排查,是因为集群依赖的操作系统用户gbase被意外重建了,导致安装目录的属主不正确,没有权限访问导致。
错误现象
gcware正常,gcluster和gnode都显示CLOSE状态
gcware正常,gcluster和gnode都显示CLOSE状态
排查过程
重点是gnode服务是不依赖其它服务的,而gcluster依赖gcware。因为gcware部署在根目录下,而gcluster,gnode目录一般都是默认都是单独挂载一块大容量磁盘的,所有先怀疑是文件系统没有挂载,导致服务找不到可执行文件。
检查挂载情况
df -h检查,发现挂载正常,/opt/gbase存在。既然磁盘挂载正常,那检查一下服务的启动日志system.log看什么报错信息。
df -h检查发现挂载正常
检查启动日志
查看gnode服务system.log日志,发现 No Space left on device和No such file or directory的报错信息,怀疑磁盘空间满了。结合前面的df -h容量没满,后续检查inode是否满