Oracle9204 RAC 节点2当机后5小时重新启动找不到节点1上实例

讨论了Oracle 9.2.0.4 RAC环境中,因硬件故障导致一节点长时间离线后重启的问题。正常运行的节点无法被刚恢复的节点探测到,分析了可能的原因及集群管理器的相关配置。
Oracle9.2.0.4  RAC    ocfs  
Linux AS3.0
两节点

现状:  节点1 工作正常,节点2 挂起



    凌晨由于硬件问题导致节点2挂起 ,需要重新更换硬件,系统关闭(节点1工作正常),由于种种原因,硬件
更换进度缓慢, 早上8点多才更换完成,重新开启节点2 后,开启oracm , gsd, 实例2,监听(这段时间节点1
一直运行中),随后节点1的监听可以监测到节点2的实例 , 但是节点2 上 lsnctl status 只能看到节点2 自己
,不能监测到节点1的实例 ,是否时间过长,节点1 工作正常,没有重新启动,所以节点2 不能监测到节点
1的实例 ?  

      一般情况下节点1,2 Server两台重新启动后, 一般都是先开启节点1上的oracm, gsd, 实例,监听, 几分钟
后开启节点2的, 都能互相侦测到 。

      这个问题发生后的开启顺序和正常开启没有区别,只是节点2 当机时间过长 (被节点1剔出RAC系统) 。  


cmcfg.ora 中的关于oracm 的一些参数定义及解释上不是太清楚。


MissCount         defines the number of check-in intervals that can be missed before a Cluster Manager and its related node are declared down by the cluster.   

PollInterval     defines the check-in time among Cluster Managers on different nodes. Each Cluster Manager is expected to send at least one status packet to all other nodes for each poll interval.


HeartBeat=15000           ---------  15000 毫秒 ,具体表示...... ?  
PollInterval=1000           --------   1000毫秒, 默认值,表示传输一个状态包到其他节点的时间间隔,这里是1秒 。
MissCount=210              --------    默认值为3, 定义在cluster管理器及他相关的节点被cluster判断为down 之前,可以忽略的check-in intervals 数量,应该是和 PollInterval 一起用的 。 210秒 ?

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/35489/viewspace-524775/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/35489/viewspace-524775/

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值