硬件环境:IBM服务器,
IBM存储,
心跳线通过交换机连接
软件环境:RAC one node 11.2.0.3
故障描述:客户更换机柜PDU,导致交换机意外掉电,重新拔插后,节点2集群服务出现异常(实例一直在节点1运行 ),cssd进程无法启动,ocssd.log出现大量的 node1 has a disk HB,but no network HB 报错,两台服务器私有网络都正常互通。
解决思路:
1、网络故障
经排查网络正常,私有网络可以互通
2、防火墙问题
经排查防火墙处于关闭状态
3、多播工作机制异常
多播工作机制可以通过执行oracle的mcasttest.pl脚本进行检测,参考Grid Infrastructure Startup During Patching, Install or Upgrade May Fail Due to Multicasting Requirement (ID 1212703.1) ,暂未查看
4、节点进程gipcd.bin存在异常
gipcd.bin进程负责管理集群中所有的私有网卡,有一定原因是由于正常节点1服务器此进程出现异常,导致节点2服务器集群HAIP一直处于starting,cssd进程无法启动。
1) 手动终止节点1gipcd.bin进程,kill之后发现集群会自动将此进程拉起,无需重启节点1的集群服务
2) 重启节点2集群服务,集群状态恢复正常,问题解决,由此判断此故障是由于正常节点集群gipcd.bin进程异常造成
5、oracle bug
此问题可能是BUG 13334158、BUG13811209、BUG12720728造成,在11.2.0.3.12 G I PSU3及以上PSU修复,可参考相关文档。
6、其他解决方案
导致节点2启动失败的可能原因有很多,如果上述方案4无法解决,可参考以下方案:
a) 关闭正常节点1集群服务,先重启节点2集群服务再重启节点1集群服务
b) 关闭所有集群服务,拔掉心跳线,15分钟后重新插入,再重启集群服务(可反复插拔进行尝试)
c) 手动启动haip crsctl start res ora.cluster_interconnect.haip -init(MOS提供,但实验未成功)
d) 禁用haip: ./crsctl modify res ora.cluster_interconnect.haip -attr "ENABLED=0" –init,重启集群后配置生效
e) 重启两台服务器。
参考文档http://blog.itpub.net/29618264/viewspace-2146762/
http://ju.outofmemory.cn/entry/88036
软件环境:RAC one node 11.2.0.3
故障描述:客户更换机柜PDU,导致交换机意外掉电,重新拔插后,节点2集群服务出现异常(实例一直在节点1运行 ),cssd进程无法启动,ocssd.log出现大量的 node1 has a disk HB,but no network HB 报错,两台服务器私有网络都正常互通。
解决思路:
1、网络故障
经排查网络正常,私有网络可以互通
2、防火墙问题
经排查防火墙处于关闭状态
3、多播工作机制异常
多播工作机制可以通过执行oracle的mcasttest.pl脚本进行检测,参考Grid Infrastructure Startup During Patching, Install or Upgrade May Fail Due to Multicasting Requirement (ID 1212703.1) ,暂未查看
4、节点进程gipcd.bin存在异常
gipcd.bin进程负责管理集群中所有的私有网卡,有一定原因是由于正常节点1服务器此进程出现异常,导致节点2服务器集群HAIP一直处于starting,cssd进程无法启动。
1) 手动终止节点1gipcd.bin进程,kill之后发现集群会自动将此进程拉起,无需重启节点1的集群服务
2) 重启节点2集群服务,集群状态恢复正常,问题解决,由此判断此故障是由于正常节点集群gipcd.bin进程异常造成
5、oracle bug
此问题可能是BUG 13334158、BUG13811209、BUG12720728造成,在11.2.0.3.12 G I PSU3及以上PSU修复,可参考相关文档。
6、其他解决方案
导致节点2启动失败的可能原因有很多,如果上述方案4无法解决,可参考以下方案:
a) 关闭正常节点1集群服务,先重启节点2集群服务再重启节点1集群服务
b) 关闭所有集群服务,拔掉心跳线,15分钟后重新插入,再重启集群服务(可反复插拔进行尝试)
c) 手动启动haip crsctl start res ora.cluster_interconnect.haip -init(MOS提供,但实验未成功)
d) 禁用haip: ./crsctl modify res ora.cluster_interconnect.haip -attr "ENABLED=0" –init,重启集群后配置生效
e) 重启两台服务器。
http://ju.outofmemory.cn/entry/88036
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29618264/viewspace-2146799/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/29618264/viewspace-2146799/