CRS-2302:Cannot get GPnP profile. Error CLSGPNP_NO_DAEMON (GPNPD daemon is not running).

本文分析了Oracle RAC环境中出现的OCR错误日志,解释了这些错误产生的原因及为何可以忽略它们,并提供了检查主节点的方法。

警告内容:

<message-time timezone="GMT">2015-12-05T03:17:58.209+00:00</message-time> 
<product-name>EM ASR Product</product-name> 
<event-timetimezone="Asia/Shanghai">2015-12-05T11:17:57.000+00:00</event-time> 
<property name="IssueType">EVENT_METRIC_ALERT</property> 
<property name="TargetType">Oracle High Availability Service</property> 
<property name="TargetName">has_erp02</property> 
<property name="TargetVersion">11.2.0.4.0</property> 
<property name="HWArchitecture">GenuineIntel x86_64</property> 
<property name="OS">Oracle Linux Server release 5.11</property> 
<property name="IncidentCategories">Error</property> 
<property name="IncidentSummary">[cssd(90423)]CRS-1601:CSSD Reconfiguration complete. Active nodes are erpdb01 erpdb02 . See /u01/PSPROD/11.2.0.4/grid/log/erpdb02/alerterpdb02.log for details.</property> 
<property name="IncidentCreatedTime">2015-12-05T11:17:57.000+00:00
</property> 
<property name="EventName">CRSAlert:clusterwareErrStack</property> 
<property name="EventClass">metric_alert</property> 
<property name="EventExpression">has:metric_alert:CRSAlert:clusterwareErrStack</property> 
<property name="eventMessage">[cssd(90423)]CRS-1601:CSSD Reconfiguration complete. Active nodes are erpdb01 erpdb02 . See /u01/PSPROD/11.2.0.4/grid/log/erpdb02/alerterpdb02.log for details.</property> 

去查询相应的集群日志:

2015-12-12 10:37:11.369:

[/u01/PSPROD/11.2.0.4/grid/bin/orarootagent.bin(15547)]CRS-2302:Cannot get GPnP profile. Error CLSGPNP_NO_DAEMON (GPNPD daemon is not running).

往前搜索发现6月份也有

2015-06-06 05:26:16.572:
[/u01/PSPROD/11.2.0.4/grid/bin/orarootagent.bin(90128)]CRS-2302:Cannot get GPnP profile. Error CLSGPNP_NO_DAEMON (GPNPD daemon is not running).

2013-11-28 19:39:32.503:
  [/u01/PSPROD/11.2.0.4/grid/bin/orarootagent.bin(8294)]CRS-2302:Cannot get GPnP profile. Error CLSGPNP_NO_DAEMON (GPNPD daemon is not running).

2013-11-28 19:32:45.931:
                                                                  [ohasd(5834)]CRS-2302:Cannot get GPnP profile. Error CLSGPNP_NO_DAEMON (GPNPD daemon is not running).

2013-11-28 19:32:41.617:
 [/u01/PSPROD/11.2.0.4/grid/bin/orarootagent.bin(8131)]CRS-2302:Cannot get GPnP profile. Error CLSGPNP_NO_DAEMON (GPNPD daemon is not running).

2013-11-28 19:15:28.470:
 [/u01/PSPROD/11.2.0.4/grid/bin/orarootagent.bin(8125)]CRS-2302:Cannot get GPnP profile. Error CLSGPNP_NO_DAEMON (GPNPD daemon is not running).

解决:

这种错误一般是由数据库主动维护引起的,一般可以忽略

从RAC的原理上分析,集群中同一时刻,只有一个节点,也就是MASTER NODE能访问OCR资源,
其他节点读到的OCR信息都来自这个主节点的一份CACHE,集群重组后,由于OCR被另一个节点掌管,
该节点访问不了OCR,所以抛出这种错误OCR都是被MASTER NODE控制的,
用以下命令可以查看集群中的MSTER NODE:
[root@node1 cssd]# for x in `ls -tr /u01/11.2.0/ghome/log/node1/cssd/ocssd* `; do grep -i "master node" $x ; done | tail -1
2015-12-15 09:02:46.886: [CSSD][1112426816]clssgmCMReconfig: reconfiguration successful, incarnation 340380455 with 2 nodes, local node number 1, master node number 1
[root@node1 cssd]#
[root@node3 ~]# for x in `ls -tr /u01/11.2.0/ghome/log/node3/cssd/ocssd* `; do grep -i "master node" $x ; done | tail -1
2015-12-15 09:02:47.213: [    CSSD][1079871808]clssgmCMReconfig: reconfiguration successful, incarnation 340380455 with 2 nodes, local node number 2, master node number 1
[root@node3 ~]#
每一套RAC的OCR备份都有master node来进行,基于以上分析,这种日志错误可以忽略,
至于master node的决定管理权,按照官方的说法,当两个节点的投票数一样的情况下,是由集群中number数比较小的来掌管






上述 `crsctl check crs` 命令输出显示 Oracle 高可用服务(Oracle High Availability Services, OHAS)虽然处于在线状态,但无法与关键的集群组件通信,包括: - **Cluster Ready Services (CRS)** - **Cluster Synchronization Services (CSS)** - **Event Manager (EVM)** 这表明 Oracle Clusterware 的核心守护进程之间通信失败,尽管 OHAS 本身是运行的。这种问题常见于 Oracle RAC(Real Application Clusters)环境中。 --- ### 🔍 问题分析 错误信息逐条解释: - `CRS-4638: Oracle High Availability Services is online` → OHAS 正在运行,这是集群启动的第一个服务。 - `CRS-4535: Cannot communicate with Cluster Ready Services` → CRS 守护进程(crsd)未运行或无法响应。 - `CRS-4530: Communications failure contacting Cluster Synchronization Services daemon` → CSSD(cssd)进程异常,通常是节点间同步的基础服务。 - `CRS-4534: Cannot communicate with Event Manager` → EVM(evmd)进程可能未运行或卡住。 --- ### ✅ 解决方案 #### ✅ 步骤 1:检查各组件状态 ```bash $GRID_HOME/bin/crsctl check has ``` 查看 OHAS 是否完整运行。 #### ✅ 步骤 2:手动检查关键进程是否运行 以 root 用户执行: ```bash ps -ef | grep d.bin ``` 你应该能看到以下关键进程: - `crsd.bin` - `cssdagent` - `cssdmonitor` - `evmd.bin` - `ocssd.bin` 如果没有这些进程,说明它们没有正常启动。 #### ✅ 步骤 3:重启 OHAS(需 root 权限) > ⚠️ 注意:此操作会影响整个集群节点上的集群服务,请确保维护窗口。 在每个节点上依次执行: ```bash # 停止 OHAS $GRID_HOME/bin/crsctl stop has -f # 等待几分钟,确认所有进程都已终止 ps -ef | grep d.bin # 启动 OHAS $GRID_HOME/bin/crsctl start has ``` 然后再次检查状态: ```bash $GRID_HOME/bin/crsctl check crs ``` 理想输出应为: ``` CRS-4638: Oracle High Availability Services is online CRS-4537: Cluster Ready Services is online CRS-4529: Cluster Synchronization Services is online CRS-4533: Event Manager is online ``` #### ✅ 步骤 4:如果仍失败 —— 检查日志定位原因 查看以下日志文件(路径基于 `$GRID_HOME`): ```bash cd $GRID_HOME/log/$(hostname)/alert$(hostname).log tail -f alert*.log ``` 或更详细的组件日志: - `$GRID_HOME/log/<hostname>/crsd/crsd.log` - `$GRID_HOME/log/<hostname>/cssd/ocssd.log` - `$GRID_HOME/log/<hostname>/evm/evmd.log` 查找 `FATAL`, `ERROR`, `rebooting`, `misscount` 等关键词。 #### ✅ 步骤 5:检查网络和心跳配置(私网) CSS 依赖私有网络进行节点间通信。检查: ```bash # 查看私网配置 $GRID_HOME/bin/oifcfg getif # 应类似: # eth1 192.168.1.0 private # eth2 10.0.0.0 cluster_interconnect ``` 确保私网链路通畅,无丢包、MTU 不匹配等问题。 使用 `ping` 和 `iperf` 测试私网连通性。 #### ✅ 步骤 6:检查 OCR 和投票盘(Voting Disk) OCR 和 Voting Disk 是集群正常工作的基础。 检查 OCR 状态: ```bash $GRID_HOME/bin/ocrcheck ``` 检查 Voting Disk: ```bash $GRID_HOME/bin/crsctl query css votedisk ``` 如果这些设备不可访问(如 ASM 实例未启动、磁盘组离线),会导致 CSS/CRS 无法启动。 > 若 ASM 实例未启动,可尝试手动启动: > > ```bash > su - grid > sqlplus / as sysasm > SQL> startup > ``` 然后再重启 OHAS。 --- ### 🧩 示例:完整恢复流程(root 执行) ```bash # 切换到 grid 用户获取 GRID_HOME su - grid echo $GRID_HOME exit # 使用 root 执行以下命令 export GRID_HOME=/u01/app/19.0.0/grid # 根据实际路径设置 # 停止并重启 OHAS $GRID_HOME/bin/crsctl stop has -f sleep 60 $GRID_HOME/bin/crsctl start has # 检查结果 $GRID_HOME/bin/crsctl check crs ``` --- ### 📌 总结 | 错误 | 可能原因 | 解决方法 | |------|----------|---------| | CRS-4535 | crsd 未运行 | 重启 OHAS | | CRS-4530 | ocssd 问题 | 检查私网、ASM、votedisk | | CRS-4534 | evmd 故障 | 通常随 OHAS 重启恢复 | 最常见的根本原因是: - ASM 实例崩溃导致 OCR/voting disk 不可访问 - 私网中断或配置错误 - 节点 misscount 导致驱逐 - 手动 kill 过集群进程 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值