Oracle数据库 ORA-00107 错误分析和解决

最新推荐文章于 2025-11-24 15:52:13 发布

原创最新推荐文章于 2025-11-24 15:52:13 发布 · 912 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #oracle

AI辅助_ORA-错误合集专栏收录该内容

358 篇文章

订阅专栏

在这里插入图片描述
好的，我们来详细解析 ORA-00107 错误。这是一个与 Oracle 集群环境密切相关的严重错误。

📌 ORA-00107 错误详解

错误信息结构组成

标准的 ORA-00107 错误信息格式如下：

ORA-00107: network connection to instance <instance_number> on node <node_name> is broken

其结构可以分解为：

ORA-00107: Oracle 数据库错误的唯一标识码。
network connection to instance: 错误的核心描述，表明到一个 Oracle 实例的网络连接出现了问题。
<instance_number>: 一个占位符，指明了连接中断的目标实例的编号（例如 1, 2）。
<node_name>: 一个占位符，指明了连接中断的目标实例所在的集群节点的主机名。
is broken: 明确指出该连接已断裂。

错误含义与官方解释

官方解释：

原因 (Cause): 在一个 Oracle Real Application Clusters (RAC) 环境中，当前节点上的一个实例无法通过网络与集群中的另一个指定节点上的指定实例进行通信。用于实例间缓存融合（Cache Fusion）和集群心跳（Heartbeat）的关键私有网络连接已经丢失。
行动 (Action): 检查指定节点 (<node_name>) 的操作系统和网络状态。确保集群的私有互连网络（Interconnect）运行正常，并且所有网络接口（如 eth1, bond0）都已启动且配置正确。使用操作系统工具（如 ping, traceroute, oifcfg）来诊断网络连通性问题。

核心要点：这是一个 RAC 集群内部网络故障错误。它表明集群的一个关键组成部分——私有互连网络——出现了严重问题，导致集群节点之间的通信中断。这对于 RAC 数据库的健康和可用性是致命的，因为它直接破坏了保证数据一致性和缓存协调的机制。

产生错误的场景与原因

典型场景：
此错误** exclusively ( exclusively** 发生在 Oracle RAC 环境中。当某个集群节点因为网络、硬件或软件问题与集群中的其他节点失去联系时，正在运行的实例会检测到这一故障并抛出此错误。

具体原因与示例：

私有网络硬件故障：
- 网线问题：连接节点的私有网络网线被拔出或损坏。
- 网卡故障：用于私有互连的网络接口卡（NIC）发生物理故障。
- 交换机故障：连接所有集群节点的私有网络交换机宕机或配置错误。
```
# 错误信息可能类似于：
ORA-00107: network connection to instance 2 on node racnode2 is broken
# 这表明当前节点（如 racnode1）无法联系到节点 racnode2 上的实例 2。
```
网络配置错误：
- 操作系统重启后，私有网络接口未能正确启动或获取IP地址。
- 错误的子网掩码、网关或防火墙规则阻断了集群通信端口。
- 修改了 /etc/hosts 文件中的节点主机名映射，但未同步到所有节点或 Oracle 集群件。
操作系统或服务器问题：
- 节点服务器突然重启或宕机。
- 操作系统内核崩溃或出现严重错误。
- 服务器负载极高，无法及时响应网络心跳。
集群软件问题：
- Oracle Clusterware 或 Grid Infrastructure 进程（如 cssd, crsd）出现故障，无法管理网络资源。

问题定位与诊断分析

当遇到 ORA-00107 时，诊断目标是快速确定网络断裂的范围和根本原因。

诊断步骤：

检查集群状态：
在一个健康的节点上，使用 crsctl 检查集群和数据库资源状态。
```
# 检查集群状态
$ crsctl check cluster -all

# 检查CRS状态
$ crsctl check crs

# 检查数据库状态
$ srvctl status database -d <db_name>
```
你很可能会发现一个或多个实例/节点处于 OFFLINE 状态。
检查警报日志：
在报告错误的实例和幸存实例的警报日志中，查找在 ORA-00107 之前发生的错误。通常会看到网络超时、心跳丢失等消息。
诊断网络连通性：
在存活的节点上，尝试 ping 发生故障的节点。
```
$ ping -c 5 racnode2-priv # 使用私有主机名ping对方节点
$ ping -c 5 <private_ip_of_racnode2>
```
如果 ping 不通，问题出在网络层（物理、IP）。
检查集群网络配置：
使用 oifcfg 工具检查集群认可的互连网络配置。
```
$ oifcfg getif
```
确保其与操作系统的实际网络配置一致。
检查操作系统日志：
检查故障节点和存活节点的 /var/log/messages（Linux）或系统日志，寻找网卡宕机、交换机端口错误、NIC bonding 问题等线索。

解决方案与步骤

解决此错误的流程是：修复网络 -> 恢复集群。

步骤与示例：

立即行动（修复网络问题）：
- 物理层：检查并重新插拔网线。检查交换机的端口状态和电源。更换故障网卡。
- 网络层：在操作系统层面，启动停用的网络接口 (ifup eth1)，纠正错误的IP配置。检查并禁用防火墙。
- 验证：从所有节点互相 ping 对方的私有IP和主机名，确保双向通信完全恢复。

恢复被驱逐的实例/节点：
在网络问题解决后，被驱逐的实例不会自动启动。你需要手动启动它。

# 使用srvctl启动数据库实例
$ srvctl start instance -d <db_name> -i <instance_name> -n <node_name>

# 例如
$ srvctl start instance -d ORCL -i ORCL2 -n racnode2

# 或者启动整个数据库
$ srvctl start database -d ORCL

根本原因分析与预防：
- 实施冗余：为私有互连配置NIC bonding（网卡绑定）或使用多个交换机，提供网络路径冗余。这是生产环境的必备要求。
- 监控：部署监控系统，持续检查节点间的网络延迟和丢包率。
- 参数调整：在Oracle支持的指导下，考虑调整 misscount 等参数，但需非常谨慎。

通俗易懂的解释

想象一下 Oracle RAC 集群是一个乐队。

每个节点：就像是乐队里的一个乐手（吉他手、鼓手、主唱）。
私有互连网络：就像是乐手们互相倾听的监听耳机系统。每个人都能通过耳机听到其他人在演奏什么，从而保持节奏一致、和弦同步。
缓存融合：就像吉他手听到鼓手打了个漂亮的节拍，他立刻就能跟上一段即兴solo，而不需要看乐谱（磁盘）。

ORA-00107 错误的发生就相当于：
正在演奏中，鼓手的监听耳机突然没声了（网络连接 broken）。
主唱和吉他手（其他节点）通过自己的耳机喊：“鼓手，你还在吗？下一段怎么进？” 但鼓手完全听不见。
乐队指挥（Clusterware）发现了这个严重问题，为了不让整个演出变成一场灾难（数据损坏），他立刻做了一个决定：把鼓手“驱逐”下台（实例驱逐）。乐队剩下的成员在没有鼓手的情况下，继续尽力完成演出（幸存实例继续服务）。

为什么会耳机没声？
可能是鼓手的耳机线被踩断了（网线坏了），也可能是他的耳机放大器坏了（网卡坏了），或者是整个监听系统的调音台宕机了（交换机挂了）。

所以，解决办法就是：

紧急维修：赶紧把鼓手的耳机线接上（修复物理网络）。
请他回来：修好之后，指挥示意，让鼓手重新上台，戴上耳机，重新加入演奏（用 srvctl start instance 命令启动被驱逐的实例）。
未来预防：给每个乐手准备两副耳机和两套线路（NIC bonding），这样一副坏了，立刻自动切换到另一副，演出永远不会中断。