node1 has a disk HB,but no network HB

硬件环境:IBM服务器, IBM存储, 心跳线通过交换机连接
软件环境:RAC one node  11.2.0.3
故障描述:客户更换机柜PDU,导致交换机意外掉电,重新拔插后,节点2集群服务出现异常(实例一直在节点1运行 ),cssd进程无法启动,ocssd.log出现大量的 node1 has a disk HB,but no network HB 报错,两台服务器私有网络都正常互通。
解决思路:
1、网络故障
    经排查网络正常,私有网络可以互通
2、防火墙问题
    经排查防火墙处于关闭状态
3、多播工作机制异常
     多播工作机制可以通过执行oracle的mcasttest.pl脚本进行检测,参考Grid Infrastructure Startup During Patching, Install or Upgrade May Fail Due to Multicasting Requirement (ID 1212703.1) ,暂未查看
4、节点进程gipcd.bin存在异常
     gipcd.bin进程负责管理集群中所有的私有网卡,有一定原因是由于正常节点1服务器此进程出现异常,导致节点2服务器集群HAIP一直处于starting,cssd进程无法启动。
1) 手动终止节点1gipcd.bin进程,kill之后发现集群会自动将此进程拉起,无需重启节点1的集群服务
2) 重启节点2集群服务,集群状态恢复正常,问题解决,由此判断此故障是由于正常节点集群gipcd.bin进程异常造成
5、oracle bug
    此问题可能是BUG 13334158、BUG13811209、BUG12720728造成,在11.2.0.3.12 G I PSU3及以上PSU修复,可参考相关文档。
6、其他解决方案
    导致节点2启动失败的可能原因有很多,如果上述方案4无法解决,可参考以下方案:
a) 关闭正常节点1集群服务,先重启节点2集群服务再重启节点1集群服务
b) 关闭所有集群服务,拔掉心跳线,15分钟后重新插入,再重启集群服务(可反复插拔进行尝试)
c) 手动启动haip crsctl start res ora.cluster_interconnect.haip -init(MOS提供,但实验未成功)
d) 禁用haip: ./crsctl modify res ora.cluster_interconnect.haip -attr "ENABLED=0" –init,重启集群后配置生效
e) 重启两台服务器。

参考文档http://blog.itpub.net/29618264/viewspace-2146762/
                http://ju.outofmemory.cn/entry/88036




来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29618264/viewspace-2146799/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/29618264/viewspace-2146799/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值