心跳长时间missing，导致2节点被驱逐

最新推荐文章于 2025-03-18 21:17:29 发布

树洞~先生

最新推荐文章于 2025-03-18 21:17:29 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Oracle 文章标签： Oracle RAC

本文链接：https://blog.youkuaiyun.com/az65381973/article/details/87358077

本文描述了当Oracle RAC集群中出现节点宕机情况时，如何进行故障排查和处理。通过停止并重启集群、检查进程、分析日志，特别是关注到CSSD日志中的网络通信警告，发现由于心跳网络问题导致节点被驱逐。最终，问题解决在于修复心跳网络故障。

当发现一个集群其中一个节点宕机，比如+ASM2在集群里offline，immediate，要重新拉起来所要做的步骤
一、停干净当前宕机节点集群/oragrid/app/11.2.0/grid/bin/crsctl stop crs -f
二、ps -ef |grep d.bin ----查看集群是否停干净，grep d.bin是因为有很多集群资源都是这个结尾的，例如 ohasd.bin,mdnsd.bin,gpnpd.bin等
一直要停到只剩下grep --color=auto d.bin为止，如果发现有资源停不掉的，就kill -9 杀掉
三、试着重新启动集群，/oragrid/app/11.2.0/grid/bin/crsctl start crs
四、如果启动了，ASM起来了，把库拉起来了，需要去排除问题，是什么问题导致的
五、对于11g集群日志首先关注的是cd $ORACLE_HOME目录下的log/节点主机名/alert ：/oragrid/app/11.2.0/grid/log/1618db02/alert1618db02.log
2018-11-07 15:01:09.297
[cssd(4328)]CRS-1612:Network communication with node 1618db01 (1) missing for 50% of timeout interval. Removal of this node from cluster in 14.190
seconds2018-11-07 15:01:09.297
[cssd(4328)]CRS-1612:Network communication with node 1618db03 (3) missing for 50% of timeout interval. Removal of this node from cluster in 14.470
seco