Oracle CRS/GI 进程介绍

最新推荐文章于 2025-06-11 16:22:16 发布

原创最新推荐文章于 2025-06-11 16:22:16 发布 · 844 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#基础

基础知识专栏收录该内容

18 篇文章

订阅专栏

本文详细介绍了Oracle Grid Infrastructure中核心进程的作用、日志路径及在故障排查中的应用，包括ocssd.bin、crsd.bin、evmd.bin、ons进程、gsd、oprocd.bin、oclsomon.bin、cssdagent、cssdmonitor、ohasd.bin等，并提供了日志文件的位置指导，有助于快速定位和解决问题。

1. ocssd.bin：这是一个很核心的进程，如果它异常终止会导致这个节点的集群或者主机重启。这个进程主要用于检查表决盘能否正常访问，节点私网间的通信是否正常。数据库实例上的LMON进程也会注册到CSSD上，这样CSSD会通过LMON来了解数据库实例的健康情况。
如果节点发生了主机自动重启，需要查看ocssd的日志，位于： <CRS_HOME>/log/<host>/cssd。

2. crsd.bin：这个进程主要用于管理集群中的资源。用来启动、停止检查一些资源，比如数据库实例、ASM、监听、磁盘组、VIP等。在11.2，这些具体的操作由对应的agent执行。另外，OCR的维护也是由CRSD完成的。
当发现某些资源异常终止后，首先需要查看crsd的日志：<CRS_HOME>/log/<host>/crsd。

3. evmd.bin：事件监控(event monitor)进程，由它来发布集群事件，比如实例启动、停止等事件。

4. ons进程：Oracle Notification Service daemon，它用于接收evmd发来的集群事件，然后将这些事件发送给应用预订者或者本地的监听，这样就可以实现FAN(Fast Application Notification)，应用能够接收到这些事件并进行处理。

5. gsd：只有当CRS或者GI上需要管理9i的数据库时才需要。在11.2, gsd 默认就是offline的。
可以参考My Oracle Support 文档： GSD Is Used Only if 9i RAC Database is Present (Doc ID 429966.1)

10g和 11.1特有的：
1. oprocd.bin：Oracle Clusterware Process Monitor Daemon，用来监控主机hang，如果发现主机hang后会发起主机重启。只有未使用第三方的集群软件时才运行，Linux上从10.2.0.4开始使用。
oprocd的日志会在：/etc/oracle/oprocd/*.log.* 或者 /var/opt/oracle/oprocd/*.log.*。

2. oclsomon.bin：用来监控ocssd进程是否hang，如果发现hang，会发起reboot.

11.2特有的：
1. cssdagent(11.2)：这个进程由ohasd启动，然后由它来启动、停止、检查ocssd进程，以root身份运行。
   它的日志位于：<GRID_HOME>/log/<host>/agent/ohasd/oracssdagent_root

2. cssdmonitor(11.2)：监控cssdagent，并且检查节点hang（类似于oprocd），监控ocssd进程是否hang（类似于oclsomon）,监控vendor clusterware（类似于vmon），以root身份运行。
   它的日志位于：<GRID_HOME>/log/<host>/agent/ohasd/oracssdmonitor_root

3. ohasd.bin: 在GI启动时，最先启动的就是ohasd,然后由它启动agent(orarootagent,oraagent, cssdagnet 和 cssdmonitor) ，各个agent再启动对应的进程。
    如果GI启动过程有问题，可以查看一下ohasd的日志：<GRID_HOME>/log/<host>/agent/ohasd

4. mdnsd.bin：这个进程通过多播（Multicast）发现集群中的节点和所有的网卡信息。一定要确定集群中的网卡支持多播，而且节点间的通信正常。
   它的日志位于：<GRID_HOME>/log/<host>/mdnsd

5. gpnpd.bin：发布构建集群所需要的bootstrap 信息，并且在集群的所有节点之间同步gpnp profile。
   它的日志位于：<GRID_HOME>/log/<host>/gpnpd

6. gipcd.bin：这个进程负责管理集群中所有的私网（cluster interconnect）网卡。私网信息是通过gpnpd获得的。
   它的日志位于：<GRID_HOME>/log/<host>/gipcd

7. gnsd(可选): Grid Naming Service. 相当于子DNS，功能和DNS类似，会取代使用/etc/hosts进行主机的解析。
   它的日志位于：<GRID_HOME>/log/<host>/gnsd

8. octssd.bin: The Cluster Time Sync Service(CTSS) 用于各个节点间的时钟同步，集群中的一个节点的时钟会作为参照节点，其它节点和这个节点进行时钟同步。注意：当第三方时间同步软件（例如：NTP）存在时，CTSS会以‘观察者’的方式运行，并不修改节点时间，但是，如果CTSS没有发现第三方时间同步软件，它会开始修改节点时间以便和参考节点同步。
   它的日志位于：<GRID_HOME>/log/<host>/ctssd.

9. osysmond.bin ：这是Oracle Cluster Health Monitor(CHM)的主要进程，这个进程在所有节点都会运行，sysmond会将每个节点的资源使用情况发送给cluster logger service，后者将会把所有节点的信息都接收并保存到CHM的资料库。
   它的日志位于：<GRID_HOME>/log/<host>/crfmond/crfmond.log

10. ologgerd：这是Oracle Cluster Health Monitor(CHM)的另一个主要进程，在一个集群中的，ologgerd 会有一个主机点(master)，还有一个备节点(standby)。当ologgerd在当前的节点遇到问题无法启动后，它会在备用节点启用。
   它的日志位于：<GRID_HOME>/log/<host>/crflogd/crflogd.log

11. <XXX>agent.bin：在11.2，各个资源的启动、停止和检查都是由agent来执行的。ohasd 会把这些agent启动。

Agent包括两种，一种是ohasd的：
oraagent_grid：启动/停止/检查/清除ora.asm, ora.evmd, ora.gipcd, ora.gpnpd, ora.mdnsd等资源。
orarootagent_root：启动/停止 /检查/清除 ora.crsd, ora.ctssd, ora.diskmon, ora.drivers.acfs, ora.crf (11.2.0.2)等资源。
oracssdagent_root: 启动/停止/检查 ocssd进程。
oracssdmonitor_root：监控cssdagent进程。

它们的日志位于：<GRID_HOME>/log/<host>/agent/ohasd

另一种是crsd的：
oraagent_grid: 启动/停止/检查/清除 asm, ora.eons, ora.LISTENER.lsnr, SCAN listeners, ora.ons, diskgroup 等资源
oraagent_oracle: 启动/停止/检查/清除 service, database 等资源
orarootagent_root : 启动/停止/检查/清除 GNS, VIP, SCAN VIP and network 等资源.
scriptagent_grid: 应用服务定制的服务。

它们的日志位于：<GRID_HOME>/log/<host>/agent/crsd