当发现一个集群其中一个节点宕机,比如+ASM2在集群里offline,immediate,要重新拉起来所要做的步骤
一、停干净当前宕机节点集群/oragrid/app/11.2.0/grid/bin/crsctl stop crs -f
二、ps -ef |grep d.bin ----查看集群是否停干净,grep d.bin是因为有很多集群资源都是这个结尾的,例如 ohasd.bin,mdnsd.bin,gpnpd.bin等
一直要停到只剩下grep --color=auto d.bin为止,如果发现有资源停不掉的,就kill -9 杀掉
三、试着重新启动集群,/oragrid/app/11.2.0/grid/bin/crsctl start crs
四、如果启动了,ASM起来了,把库拉起来了,需要去排除问题,是什么问题导致的
五、对于11g集群日志首先关注的是cd $ORACLE_HOME目录下的log/节点主机名/alert :/oragrid/app/11.2.0/grid/log/1618db02/alert1618db02.log
2018-11-07 15:01:09.297
[cssd(4328)]CRS-1612:Network communication with node 1618db01 (1) missing for 50% of timeout interval. Removal of this node from cluster in 14.190
seconds2018-11-07 15:01:09.297
[cssd(4328)]CRS-1612:Network communication with node 1618db03 (3) missing for
心跳长时间missing,导致2节点被驱逐
最新推荐文章于 2024-11-04 07:15:00 发布