CRS-1606&CRS-1604:CSSD voting file is offline的问题解决思路

本文记录了一次CRS服务启动失败的问题排查过程。通过对alerttrac01.log和ocssd.log日志的分析,发现votedisk状态异常导致集群资源管理器启动失败。文章详细展示了日志中关于节点信息、网络心跳阈值及磁盘状态变化等关键信息,并最终通过重启节点解决了问题。
场景:crs服务无法启动,通过日志分析,有如下问题:

1.alerttrac01.log的日志重点信息如下:
cssd(10580)]CRS-1606:CSSD Insufficient voting files available [0 of 1]. Details in /u01/app/oracle/product/10.2/crs_1/log/rac01/cssd/ocssd.log.
2016-10-14 10:08:03.907
[cssd(10693)]CRS-1605:CSSD voting file is online: /dev/raw/raw3. Details in /u01/app/oracle/product/10.2/crs_1/log/rac01/cssd/ocssd.log.
2016-10-14 10:08:03.931
[cssd(10693)]CRS-1604:CSSD voting file is offline: /dev/raw/raw3. Details in /u01/app/oracle/product/10.2/crs_1/log/rac01/cssd/ocssd.log.
2016-10-14 10:08:03.931

2.ocssd.log的日志详细信息如下:
[    CSSD]2016-10-14 10:08:01.689 [1910019744] >TRACE:   clssnmReadNodeInfo: added node 2 (rac02) to cluster
[    CSSD]2016-10-14 10:08:01.690 [1910019744] >TRACE:   clssnmInitNMInfo: Initialized with unique 1476410881
[    CSSD]2016-10-14 10:08:01.695 [1910019744] >TRACE:   clssNMInitialize: Initializing with OCR id (183835705)
[    CSSD]2016-10-14 10:08:01.705 [1132575040] >TRACE:   clssnm_skgxninit: Compatible vendor clusterware not in use
[    CSSD]2016-10-14 10:08:01.705 [1132575040] >TRACE:   clssnm_skgxnmon: skgxn init failed
[    CSSD]2016-10-14 10:08:01.712 [1910019744] >TRACE:   clssnmNMInitialize: misscount set to (60)
[    CSSD]2016-10-14 10:08:01.714 [1910019744] >TRACE:   clssnmNMInitialize: Network heartbeat thresholds are: impending reconfig 30000 ms, reconfig start (misscount) 60000 ms
[    CSSD]2016-10-14 10:08:01.723 [1910019744] >TRACE:   clssnmDiskStateChange: state from 1 to 2 disk (0//dev/raw/raw3)
[    CSSD]2016-10-14 10:08:01.723 [1132575040] >TRACE:   clssnmvDPT: spawned for disk 0 (/dev/raw/raw3)
[    CSSD]2016-10-14 10:08:03.856 [1132575040] >TRACE:   clssnmDiskStateChange: state from 2 to 4 disk (0//dev/raw/raw3)
[    CSSD]2016-10-14 10:08:03.865 [1143064896] >TRACE:   clssnmvKillBlockThread: spawned for disk 0 (/dev/raw/raw3) initial sleep interval (1000)ms
[    CSSD]2016-10-14 10:08:03.874 [1910019744] >TRACE:   clssnmFatalInit: fatal mode enabled
[    CSSD]2016-10-14 10:08:03.896 [1164044608] >TRACE:   clssnmClusterListener: Spawned
[    CSSD]2016-10-14 10:08:03.897 [1164044608] >TRACE:   clssnmClusterListener: Listening on (ADDRESS=(PROTOCOL=tcp)(HOST=rac01_priv)(PORT=49895))


[    CSSD]2016-10-14 10:08:03.897 [1164044608] >TRACE:   clssnmClusterListener: Probing node rac02 (2), probcon(0x14f72470)
[    CSSD]2016-10-14 10:08:03.907 [1174534464] >TRACE:   clssgmclientlsnr: Spawned
[    CSSD]2016-10-14 10:08:03.907 [1164044608] >TRACE:   clsc_send_msg: (0x14f71f00) NS err (12571, 12560), transport (530, 111, 0)


[    CSSD]2016-10-14 10:08:03.907 [1164044608] >TRACE:   clssnmInitialMsg: node 2, rac02, con (0x14f72470)
[    CSSD]2016-10-14 10:08:03.907 [1164044608] >TRACE:   clssnmInitialMsg: send failed node 2, rac02, con (0x14f72470), rc 3


[    CSSD]2016-10-14 10:08:03.907 [1164044608] >TRACE:   clssnmDiscHelper: rac02, node(2) connection failed, con (0x14f72470), probe(0x14f72470)
[    CSSD]2016-10-14 10:08:03.907 [1164044608] >TRACE:   clssnmeventhndlr: node(2), con(0x14f72470) failed, probe((nil))ninf->con ((nil)) CONNCOMPLETE
[    CSSD]2016-10-14 10:08:03.931 [1143064896] >ERROR:   clssnmvDiskKillCheck: voting disk corrupted (0x00000000,0x00000000) (0//dev/raw/raw3)
[    CSSD]2016-10-14 10:08:03.931 [1143064896] >TRACE:   clssnmDiskStateChange: state from 4 to 3 disk (0//dev/raw/raw3)
[    CSSD]2016-10-14 10:08:03.931 [1153554752] >TRACE:   clssnmDiskPMT: disk offline (0//dev/raw/raw3)
[    CSSD]2016-10-14 10:08:03.931 [1153554752] >ERROR:   clssnmDiskPMT: Aborting, 1 of 1 voting disks unavailable
[    CSSD]2016-10-14 10:08:03.931 [1132575040] >TRACE:   clssnmvReadDskHeartBeat: read ALL for Joining
[    CSSD]2016-10-14 10:08:03.931 [1153554752] >ERROR:   ###################################
[    CSSD]2016-10-14 10:08:03.931 [1153554752] >ERROR:   clssscExit: CSSD aborting
[    CSSD]2016-10-14 10:08:03.931 [1153554752] >ERROR:   ###################################

然后,我们基本定位至vote disk的问题,但是分析node2没有任何问题,查看vote disk也存在。
虽然raw 方式绑定  可能重启后  盘符会改变。但是我们已经在linux的底层直接绑定了对应的id号到制定的盘符了,不会出现如上情况

后面,直接认为重启两个节点,问题可能会直接解决。正好另外一个不是很重要的rac节点,也出现了类似的情况。重启了两个rac节点,问题解决。


解决思路:1)也许log日志,定位的问题虽然是由于本身的linux系统对应的文件有问题,但是不一定就是文件损坏,也许重启对应的服务器可以解决很多问题,包括当年的mysql死锁问题,一个个排查都没有重启来的效果显著。



<think>好的,我现在需要帮助用户解决Oracle 11g RAC节点2上运行crsctl stat res -t命令无响应的问题。首先,我要理清用户的问题描述,然后根据提供的引用信息和自己的知识进行分析。 用户提到节点2执行crsctl stat res -t没有响应,而根据引用内容,类似的问题在引用2和引用4中都有涉及。例如,引用2提到state_details列可能显示空白,而STATE列正确显示online。引用4则显示crsctl stat res -t可能没有实例显示,但其他节点正常。这可能涉及资源状态同步或通信问题。 首先,我需要考虑可能的原因。常见的原因包括网络问题、集群软件(CRS)状态异常、资源锁冲突或节点间通信故障。另外,Oracle RAC的日志文件是排查问题的关键,比如检查CRSD日志、OHASD日志等。 接下来,按照步骤进行排查: 1. **检查集群通信状态**:用户需要确认节点间的网络连接是否正常,特别是私网和公网接口。使用oifcfg getif查看网卡配置是否正确,确保心跳网络正常。如果网络有问题,可能导致节点无法通信,CRS无法同步资源状态。 2. **验证集群服务状态**:在节点2上,检查CRS服务是否运行正常。使用crsctl check crs命令检查各个服务的状态,如CSSDCRSD等。如果某个服务未运行,需要启动或重启相关服务。 3. **检查资源状态**:在正常节点(如节点1)运行crsctl stat res -t,查看节点2资源的状态。如果节点2的资源显示OFFLINE或UNKNOWN,可能需要手动干预,比如使用crsctl stop/start resource命令重启资源。 4. **查看日志文件**:定位到CRSD和OHASD的日志,通常在$GRID_HOME/log/<节点名>目录下。查看最近的错误或警告信息,如无法连接到其他节点、资源启动超时等。 5. **检查OCR和Voting Disk**:OCR和Voting Disk的损坏或访问问题会导致集群无法正确管理资源。使用ocrcheck和crsctl query css votedisk命令验证其完整性。如果有问题,可能需要恢复或替换。 6. **节点重启**:如果上述步骤无效,尝试重启节点2的CRS服务。使用crsctl stop crscrsctl start crs命令。注意,在重启前确保不会影响生产环境。 在引用3中提到了一些管理命令,比如srvctl检查实例状态,关闭或启动数据库实例。用户可能需要使用这些命令来进一步诊断节点2的具体情况。 另外,引用2中提到的state_details列空白可能与资源未正确启动有关,需要确认资源是否处于预期状态。例如,数据库实例是否真的已经打开,或者存在依赖项未满足。 综合以上信息,解决方案可能包括修复网络问题、重启CRS服务、恢复OCR/Voting Disk,或手动调整资源状态。同时,用户需要根据日志中的具体错误信息进行针对性处理。</think>以下为Oracle 11g RAC节点2上`crsctl stat res -t`无响应的排查步骤及解决方案: ### 一、问题原因分析 1. **集群通信故障** 节点间心跳网络异常(如私网网卡故障、IP冲突)会导致CRS无法同步资源状态[^2][^3] 2. **CRS服务异常** 节点2的Cluster Ready Services未正常运行,常见症状: ```bash $ crsctl check crs CRS-4638: Oracle High Availability Services is online CRS-4535: Cannot communicate with Cluster Ready Services CRS-4529: Cluster Synchronization Services is online ``` 3. **资源锁冲突** 节点资源被异常锁定,常见于Voting Disk或OCR磁盘组访问冲突[^4] 4. **日志文件异常** CRSD日志(`$GRID_HOME/log/<节点名>/crsd/crsd.log`)可能包含I/O错误或超时记录 ### 二、分步解决方案 #### 步骤1:验证集群基础状态 ```bash # 检查节点间连通性(在节点1执行) $ cluvfy comp nodecon -n node2 # 查看网卡配置(节点2执行) $ oifcfg getif ``` #### 步骤2:检查CRS服务状态 ```bash # 查看服务状态(节点2执行) $ crsctl check crs # 若CRSD服务异常,强制重启 $ crsctl stop crs -f $ crsctl start crs ``` #### 步骤3:检查资源锁定状态 ```bash # 查看Voting Disk状态(任意节点执行) $ crsctl query css votedisk # 验证OCR健康度 $ ocrcheck ``` #### 步骤4:分析关键日志 ```bash # 查看最新CRSD日志(节点2执行) $ tail -500f $GRID_HOME/log/`hostname`/crsd/crsd.log | grep -E 'ERROR|WARNING' # 检查OHASD日志 $ tail -200 $GRID_HOME/log/`hostname`/ohasd/ohasd.log ``` ### 三、典型场景解决方案 | 场景 | 现象特征 | 解决方案 | |------|----------|----------| | 网络隔离 | 日志出现`CSSD: Failed to check IPC` | 修复私网连接,重启CRS | | OCR损坏 | `ocrcheck`报`PROT-602`错误 | 使用`ocrconfig -restore`恢复备份 | | 资源死锁 | 日志出现`CRS-0215`错误代码 | 执行`crsctl delete resource`强制释放资源 | ### 四、预防措施 1. 定期执行集群验证工具: ```bash $ cluvfy stage -post crsinst -n all ``` 2. 配置CRS自动重启: ```bash $ crsctl modify resource "ora.cssd" -attr AUTO_START=1 ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值