Oracle集群新特性竟然导致正常节点被踢出集群

原创

已于 2024-07-25 23:38:32 修改 · 462 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#oracle #数据库

于 2024-07-25 23:36:05 首次发布

突发故障，集群两个节点同时重启

某天深夜突然接到客户电话，集群脑裂导致集群2个节点在3分钟内先后重启，影响了业务。按照正常情况，脑裂只会踢出一个节点，两个节点分别重启的现象倒是比较少见。不由得让我好奇心大起，拿到客户提供的日志立即着手分析。

OSW收集到的数据，故障的时间线大致如下：

21:42:29开始，节点2日志采集中断，OS夯住导致操作系统命令无法正常执行。
21:44:12左右，节点1报出通讯错误，和节点1之间的通讯发生中断。

2024-06-19 21:44:27.744 [OCSSD(26526)]CRS-1612: Network communication with node orcldb02 (2) missing for 50% of timeout interval.  Removal of this node from cluster in 14.830 seconds
2024-06-19 21:44:35.745 [OCSSD(26526)]CRS-1611: Network communication with node orcldb02 (2) missing for 75% of timeout interval.  Removal of this node from cluster in 6.830 seconds
2024-06-19 21:44:39.745 [OCSSD(26526)]CRS-1610: Network communication with node orcldb02 (2) missing for 90% of timeout interval.  Removal of this node from cluster in 2.830 seconds

看到以上信息，有经验的DBA都知道系统发生了脑裂，集群发生脑裂后会选择其中的一个节点踢出集群。按照正常的逻辑，节点2被踢出集群是预期行为，首先节点2已经出现操作系统夯住的异常，其次对于两个节点的集群，即使两个节点都没有明显的问题，Oracle也会优