Oracle9204 RAC 节点2当机后5小时重新启动找不到节点1上实例-优快云博客

讨论了Oracle 9.2.0.4 RAC环境中，因硬件故障导致一节点长时间离线后重启的问题。正常运行的节点无法被刚恢复的节点探测到，分析了可能的原因及集群管理器的相关配置。

Oracle9.2.0.4  RAC ocfs
Linux AS3.0
两节点

现状：  节点1 工作正常，节点2 挂起

凌晨由于硬件问题导致节点2挂起，需要重新更换硬件，系统关闭(节点1工作正常)，由于种种原因，硬件
更换进度缓慢，早上8点多才更换完成，重新开启节点2 后，开启oracm , gsd, 实例2，监听(这段时间节点1
一直运行中)，随后节点1的监听可以监测到节点2的实例，但是节点2 上 lsnctl status 只能看到节点2 自己
，不能监测到节点1的实例，是否时间过长，节点1 工作正常，没有重新启动，所以节点2 不能监测到节点
1的实例？

   一般情况下节点1，2 Server两台重新启动后，一般都是先开启节点1上的oracm, gsd, 实例，监听，几分钟
后开启节点2的，都能互相侦测到。

   这个问题发生后的开启顺序和正常开启没有区别，只是节点2 当机时间过长 (被节点1剔出RAC系统) 。

cmcfg.ora 中的关于oracm 的一些参数定义及解释上不是太清楚。

MissCount       defines the number of check-in intervals that can be missed before a Cluster Manager and its related node are declared down by the cluster.

PollInterval    defines the check-in time among Cluster Managers on different nodes. Each Cluster Manager is expected to send at least one status packet to all other nodes for each poll interval.

HeartBeat=15000          ---------  15000 毫秒，具体表示...... ?
PollInterval=1000          -------- 1000毫秒，默认值，表示传输一个状态包到其他节点的时间间隔，这里是1秒。
MissCount=210             -------- 默认值为3，定义在cluster管理器及他相关的节点被cluster判断为down 之前，可以忽略的check-in intervals 数量，应该是和 PollInterval 一起用的。 210秒？

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/35489/viewspace-524775/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/35489/viewspace-524775/