心跳长时间missing,导致2节点被驱逐

本文描述了当Oracle RAC集群中出现节点宕机情况时,如何进行故障排查和处理。通过停止并重启集群、检查进程、分析日志,特别是关注到CSSD日志中的网络通信警告,发现由于心跳网络问题导致节点被驱逐。最终,问题解决在于修复心跳网络故障。

当发现一个集群其中一个节点宕机,比如+ASM2在集群里offline,immediate,要重新拉起来所要做的步骤
一、停干净当前宕机节点集群/oragrid/app/11.2.0/grid/bin/crsctl stop crs -f 
二、ps -ef |grep d.bin ----查看集群是否停干净,grep d.bin是因为有很多集群资源都是这个结尾的,例如 ohasd.bin,mdnsd.bin,gpnpd.bin等
    一直要停到只剩下grep --color=auto d.bin为止,如果发现有资源停不掉的,就kill -9 杀掉
三、试着重新启动集群,/oragrid/app/11.2.0/grid/bin/crsctl start crs
四、如果启动了,ASM起来了,把库拉起来了,需要去排除问题,是什么问题导致的
五、对于11g集群日志首先关注的是cd $ORACLE_HOME目录下的log/节点主机名/alert :/oragrid/app/11.2.0/grid/log/1618db02/alert1618db02.log
2018-11-07 15:01:09.297
[cssd(4328)]CRS-1612:Network communication with node 1618db01 (1) missing for 50% of timeout interval.  Removal of this node from cluster in 14.190 
seconds2018-11-07 15:01:09.297
[cssd(4328)]CRS-1612:Network communication with node 1618db03 (3) missing for 50% of timeout interval.  Removal of this node from cluster in 14.470 
seco

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值