1 | 操作系统版本 | AIX 5.3 |
2 | Oracle版本 | Oracle10 |
3 | 问题描述 | 两节点通过hacmp实现RAC集群,机器搬迁过后,重启系统之后,发现只能同时启动其中一个节点的服务,另一个节点从asm、database到上层服务都无法启动。 |
处理过程描述
1、检查日志,发现rac没有心跳,ping私有网络不通,经检查是网线没有通;
2、网线连接之后,重启了rac,发现集群仍不能正常启动,继续查看相关日志,发现共享磁道设置有问题。
查看Oracle Release Notes发现如下情况:
To enable simultaneous access to a disk device from multiple nodes, you must set the appropriate Object Data Manager (ODM) attribute listed in the following table to the value shown, depending on the disk type:
Disk Type Attribute Value
SSA, FAStT, or non-MPIO-capable disks reserve_lock no
ESS, EMC, HDS, CLARiiON, or MPIO-capable disks
reserve_policy no_reserve
通过查看,该系统用的存储是 MPIO-capable disks,则对共享存储的每一张磁盘执行如下命令(盘号需要修改):
chdev -l hdisk2 -a reserve_policy=no_reserve
重新启动HACMP,这时集群能正常启动了。
3、RAC集群能正常启动后,经过一段时间的观察,发现VIP出现漂移的情况,开启vip的5级debug以及查看racgvip,发现是默认网关检查通不过,引起vip漂移,ping该网卡的默认网关ping不通,但vip服务大部分时间正常,综合情况分析,该处为oracle的一个bug。metalinkDefault Gateway [ID 399213.1]说明了其中的原因,可下载该文档查看。
修改$CRS_HOME/bin/racgvip脚本,硬编码DEFAULTGW为公共IP得以解决。但该方法有一定潜在风险,即DEFAULTGW所指定的机器需要保持稳定,保证网络连通性。以后在往集群中加入新节点时,需要检查一下该点设置。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/9523925/viewspace-1034481/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/9523925/viewspace-1034481/