11g RAC ASM启动失败修复

本文记录了Oracle11g RAC集群中遇到的启动问题,详细展示了使用crsctl命令查询投票磁盘状态及资源状态的过程,通过分析日志文件定位到可能存在的BUG13334158和BUG13811209,并建议升级到最新PSU版本以修复问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

oracle11g  11.2.0.3    rac

[grid@RLB01-DB02 ~]$ crsctl query css votedisk
##  STATE    File Universal Id                File Name Disk group
--  -----    -----------------                --------- ---------
 1. ONLINE   94fd4da8e8724f0fbf6e26dceebae53b (/dev/oracleasm/disks/VOTE) [VOTE_OCR]
Located 1 voting disk(s).
[grid@lb01-db02 ~]$  /u01/app/11.2.0/grid/bin/crsctl stat res -t -init
--------------------------------------------------------------------------------
NAME           TARGET  STATE        SERVER                   STATE_DETAILS       
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.asm
      1        OFFLINE OFFLINE                                                   
ora.cluster_interconnect.haip
      1        OFFLINE OFFLINE                                                   
ora.crf
      1        ONLINE  ONLINE       lb01-db02                                     
ora.crsd
      1        OFFLINE OFFLINE                                                   
ora.cssd
      1        ONLINE  OFFLINE                               STARTING
           
ora.cssdmonitor
      1        ONLINE  ONLINE       lb01-db02                                     
ora.ctssd
      1        OFFLINE OFFLINE                                                   
ora.diskmon
      1        OFFLINE OFFLINE                                                   
ora.evmd
      1        OFFLINE OFFLINE                                                   
ora.gipcd
      1        ONLINE  ONLINE       lb01-db02                                     
ora.gpnpd
      1        ONLINE  ONLINE       lb01-db02                                     
ora.mdnsd
      1        ONLINE  ONLINE       lb01-db02 

 

[grid@RLB01-DB02 ~]$ vim  /u01/app/11.2.0/grid/log/rlb01-db02/cssd/ocssd.log
2019-02-25 10:19:50.798: [    CSSD][1098787136]clssnmvDHBValidateNCopy: node 1, rlb01-db01, has a disk HB, but no network HB, DHB has rcfg 251082553, wrtcnt, 167308331, LATS 148031504, lastSeqNo 167308330, uniqueness 1523724667, timestamp 1551061593/1562825448
2019-02-25 10:19:51.315: [    CSSD][1089845568]clssgmWaitOnEventValue: after CmInfo State  val 3, eval 1 waited 0
2019-02-25 10:19:51.520: [    CSSD][1102690624]clssscSelect: cookie accept request 0x2aaaac024f00
2019-02-25 10:19:51.520: [    CSSD][1102690624]clssgmAllocProc: (0xf6ebf00) allocated
2019-02-25 10:19:51.521: [    CSSD][1102690624]clssgmClientConnectMsg: properties of cmProc 0xf6ebf00 - 1,2,3,4,5
2019-02-25 10:19:51.521: [    CSSD][1102690624]clssgmClientConnectMsg: Connect from con(0x5049) proc(0xf6ebf00) pid(18920) version 11:2:1:4, properties: 1,2,3,4,5
2019-02-25 10:19:51.521: [    CSSD][1102690624]clssgmClientConnectMsg: msg flags 0x0000
2019-02-25 10:19:51.522: [    CSSD][1102690624]clssscSelect: cookie accept request 0xf6ebf00
2019-02-25 10:19:51.522: [    CSSD][1102690624]clssscevtypSHRCON: getting client with cmproc 0xf6ebf00
2019-02-25 10:19:51.522: [    CSSD][1102690624]clssgmRegisterClient: proc(4/0xf6ebf00), client(1/0xf6ec070)
2019-02-25 10:19:51.523: [    CSSD][1102690624]clssgmJoinGrock: global grock CRF- new client 0xf6ec070 with con 0x5078, requested num -1, flags 0x4000e00
2019-02-25 10:19:51.523: [    CSSD][1102690624]clssgmJoinGrock: ignoring grock join for client not requiring fencing until group information has been received from the master; group name CRF-, member number -1, flags 0x4000e00
2019-02-25 10:19:51.523: [    CSSD][1102690624]clssgmDiscEndpcl: gipcDestroy 0x5078
2019-02-25 10:19:51.523: [    CSSD][1102690624]clssgmDeadProc: proc 0xf6ebf00
2019-02-25 10:19:51.523: [    CSSD][1102690624]clssgmDestroyProc: cleaning up proc(0xf6ebf00) con(0x5049) skgpid  ospid 18920 with 0 clients, refcount 0
2019-02-25 10:19:51.524: [    CSSD][1102690624]clssgmDiscEndpcl: gipcDestroy 0x5049
2019-02-25 10:19:51.801: [    CSSD][1098787136]clssnmvDHBValidateNCopy: node 1, rlb01-db01, has a disk HB, but no network HB, DHB has rcfg 251082553, wrtcnt, 167308333, LATS 148032504, lastSeqNo 167308331, uniqueness 1523724667, timestamp 1551061595/1562827288
2019-02-25 10:19:51.822: [    CSSD][1105844544]clssnmSendingThread: sending join msg to all nodes
2019-02-25 10:19:51.822: [    CSSD][1105844544]clssnmSendingThread: sent 4 join msgs to all nodes
2019-02-25 10:19:52.317: [    CSSD][1089845568]clssgmWaitOnEventValue: after CmInfo State  val 3, eval 1 waited 0
2019-02-25 10:19:53.319: [    CSSD][1089845568]clssgmWaitOnEventValue: after CmInfo State  val 3, eval 1 waited 0
2019-02-25 10:19:53.816: [    CSSD][1107421504]clssnmRcfgMgrThread: Local Join
2019-02-25 10:19:53.816: [    CSSD][1107421504]clssnmLocalJoinEvent: begin on node(2), waittime 193000
2019-02-25 10:19:53.816: [    CSSD][1107421504]clssnmLocalJoinEvent: set curtime (148034524) for my node
2019-02-25 10:19:53.816: [    CSSD][1107421504]clssnmLocalJoinEvent: scanning 32 nodes
2019-02-25 10:19:53.816: [    CSSD][1107421504]clssnmLocalJoinEvent: Node rlb01-db01, number 1, was shut down
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssnmLocalJoinEvent: Starting initial cluster reconfig
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssnmDoSyncUpdate: Initiating sync 0
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssscCompareSwapEventValue: changed NMReconfigInProgress  val 2, from -1, changes 1
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssnmDoSyncUpdate: local disk timeout set to 200000 ms, remote disk timeout set to 200000
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssnmDoSyncUpdate: new values for local disk timeout and remote disk timeout will take effect when the sync is completed.
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssnmSetFirstIncarn: Node 1 incarnation 251082553
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssnmSetFirstIncarn: Node 2 incarnation 251082552
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssnmSetFirstIncarn: Incarnation set to 251082554
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssnmDoSyncUpdate: Starting cluster reconfig with incarnation 251082554
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssnmSetupAckWait: Ack message type (11)
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssnmSetupAckWait: node(2) is ALIVE
2019-02-25 10:19:53.818: [    CSSD][1107421504]clssnmSendSync: syncSeqNo(251082554), indicating EXADATA fence initialization incomplete
2019-02-25 10:19:53.818: [    CSSD][1107421504]List of nodes that have ACKed my sync: NULL
 

------暂时定位为BUG,可能是bug 13334158 and bug 13811209,

这两个bug都在11.2.0.3 GI PSU3 及以上PSU修复了,因此建议安装最新11.2.0.3 GI PSU5 (patch 14727310)

 

[root@RLB01-DB01 ~]# /u01/app/11.2.0/grid/bin/crsctl  stop  cluster  -all
[root@RLB01-DB01 ~]# /u01/app/11.2.0/grid/bin/crsctl  start   cluster  -all

<think>好的,用户需要解决Oracle 11g RAC中的CRS-4534错误。首先,我得回忆一下这个错误的具体含义。CRS-4534通常表示集群资源无法启动或通信问题,可能涉及CRS(Cluster Ready Services)的状态异常。 根据引用内容,用户之前遇到CRS-4535和CRS-2800的问题,可能和资源状态或磁盘丢失有关。CRS-4534可能类似,需要检查CRS服务是否正常启动。首先应该检查各节点的CRS服务状态,使用crsctl check crs命令。如果某个节点的CRS服务没有在线,可能需要手动启动。 然后,查看集群日志,如$CRS_HOME/log/<hostname>/alert<hostname>.log,寻找具体错误信息。可能的问题包括网络配置错误、磁盘资源不可用或时间同步问题。引用[3]提到时间同步问题可能导致CRS错误,需要检查CTSS或NTP配置,确保所有节点时间一致。 另外,资源状态异常如ora.asm可能在INTERMEDIATE状态,可能需要清理资源状态或重新配置。引用[2]中的CRS-2800错误处理可能需要停止并重新启动资源。此外,检查OCR和表决磁盘的可用性,使用ocrcheck和crsctl query css votedisk命令确认它们的状态。 如果问题依旧,可能需要重新初始化CRS服务或应用补丁。最后,确保所有步骤都参考了Oracle官方文档,并在生产环境中谨慎操作,必要时联系Oracle支持。</think>### Oracle 11g RAC CRS-4534 错误解决方法 CRS-4534 错误表示 *Cluster Ready Services (CRS)* 无法在集群节点上正常启动或通信中断。以下是分步解决方案: --- #### **1. 检查CRS服务状态** 在所有节点执行以下命令,确认服务是否正常: ```bash crsctl check crs ``` - **若输出包含 `CRS-4534`**:表明当前节点CRS服务未完全在线,需进一步排查[^1]。 - **若其他节点正常**:仅故障节点需处理。 --- #### **2. 检查集群日志** 查看CRS日志定位具体原因: ```bash $CRS_HOME/log/<hostname>/alert<hostname>.log # 主日志 $CRS_HOME/log/<hostname>/crsd/crsd.log # CRS守护进程日志 ``` 常见日志线索: - **网络问题**:节点间心跳超时、私网IP配置错误。 - **磁盘资源不可用**:OCR/Voting Disk路径丢失或权限问题(参考引用[2]中磁盘恢复操作)。 - **时间不同步**:若涉及时间同步错误,需检查NTP/CTSS配置(参考引用[3]中ntp.conf处理)。 --- #### **3. 重启CRS服务** 在故障节点尝试重启CRS: ```bash crsctl stop crs crsctl start crs ``` 若重启失败,检查资源占用: ```bash ps -ef | grep crs | grep -v grep # 确认无残留进程 ``` --- #### **4. 检查OCR和Voting Disk** 使用以下命令验证集群关键资源: ```bash ocrcheck # 检查OCR完整性 crsctl query css votedisk # 检查表决磁盘状态 ``` - **若OCR/Voting Disk异常**:需通过 `crsctl replace votedisk` 或 `ocrconfig` 修复[^2]。 --- #### **5. 处理资源状态冲突** 若资源(如 `ora.asm`)处于异常状态: ```bash crsctl stat res -t # 查看资源状态 crsctl stop resource ora.asm -f # 强制停止冲突资源 crsctl start resource ora.asm # 重新启动 ``` --- #### **6. 其他操作** - **网络验证**:使用 `ping`/`cluvfy comp nodecon -n all` 检查私网通信。 - **补丁应用**:确认已安装最新PSU补丁(部分CRS问题需补丁修复)。 --- ### 关键操作总结 | 步骤 | 命令/操作 | 目的 | |------|-----------|------| | 状态检查 | `crsctl check crs` | 确认服务在线情况 | | 日志分析 | `alert<hostname>.log` | 定位错误根源 | | 资源修复 | `crsctl stop/start resource` | 清理冲突状态 | | 磁盘检查 | `ocrcheck`/`crsctl query css votedisk` | 确保存储可靠性 |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lq2003

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值