这个错误是在 rac 底下出现的,应该算是个比较严重的错误,就是 某个节点 被 踢(evict)出去了,导致这个节点重启系统。
这个错误的原因多种多样,而且需要找的日志文件也是很多的,基本上,能找的日志都要找过去,直到能基本确定 问题根源为止,不过,这里有个指导性的 解决思路。
当出现 ORA-29740 的错误时,一般会伴随着如下内容:
Fri Sep 28 17:11:51 2001
Errors in file /oracle/export/TICK_BIG/lmon_26410_tick2.trc:
ORA-29740: evicted by member %d, group incarnation %d
Fri Sep 28 17:11:53 2001
Trace dumping is performing id=[cdmp_20010928171153]
Fri Sep 28 17:11:57 2001
Instance terminated by LMON, pid = 26410
这时,我们需要去查看 LMON 的trace 文件,而在 trc 文件中,比较重要的部分是:
*** 2002-11-20 18:49:51.369
kjxgrdtrt: Evicted by 0, seq (3, 2)
^
|
This indicates which instance initiated the eviction.(这个表明这个节点是被哪个节点踢)
On the evicting instance we will see something like:
kjxgrrcfgchk: Initiating reconfig, reason 3
*** 2002-11-20 18:49:29.559
kjxgmrcfg: Reconfiguration started, reason 3
...
*** 2002-11-20 18:49:29.727
Obtained RR update lock for sequence 2, RR seq 2
*** 2002-11-20 18:49:31.284
Voting results, upd 0, seq 3, bitmap: 0
Evicting mem 1, stat 0x0047 err 0x0002
重点关注 reason n 这个数字,因为 每个 reason 基本上对应不同的 错误内容:
Reason 0 = No reconfiguration
Reason 1 = The Node Monitor generated the reconfiguration.
Reason 2 = An instance death was detected.
Reason 3 = Communications Failure
Reason 4 = Reconfiguration after suspend
这里,介绍下 reason 1,2,3
Reason 1 一般是由于 增加或删除rac 节点成员产生的,一般情况下,不会产生 reason 的问题。
Reason 2 一般是由于
a) NTP (Time changes on cluster) - usually on Linux, Tru64, or IBM AIX
b) Network Problems (SAN).
c) Resource Starvation (CPU, I/O, etc..)
d) An Oracle bug.
这个错误没有明显的 判断标准,只能查看 各个 日志来判断可能引起的原因
Reason 3 一般是由于
a) Network Problems.
b) Resource Starvation (CPU, I/O, etc..)
c) Severe Contention in Database.
d) An Oracle bug.
这个错误很可能是由于节点间的通信造成的,所以,首先先看看节点间的通信是否有问题。
参考文档:
Metalink:ID 219361.1
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/14730395/viewspace-682815/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/14730395/viewspace-682815/