Oracle CRS/GI 进程介绍

1. ocssd.bin:这是一个很核心的进程,如果它异常终止会导致这个节点的集群或者主机重启。这个进程主要用于检查表决盘能否正常访问,节点私网间的通信是否正常。数据库实例上的LMON进程也会注册到CSSD上,这样CSSD会通过LMON来了解数据库实例的健康情况。
  如果节点发生了主机自动重启,需要查看ocssd的日志,位于: <CRS_HOME>/log/<host>/cssd。

2. crsd.bin: 这个进程主要用于管理集群中的资源。用来启动、停止检查一些资源,比如数据库实例、ASM、监听、磁盘组、VIP等。在11.2,这些具体的操作由对应的agent执行。另外,OCR的维护也是由CRSD完成的。
   当发现某些资源异常终止后,首先需要查看crsd的日志:<CRS_HOME>/log/<host>/crsd。

3. evmd.bin: 事件监控(event monitor)进程,由它来发布集群事件,比如实例启动、停止等事件。

4. ons进程:Oracle Notification Service daemon,它用于接收evmd发来的集群事件,然后将这些事件发送给应用预订者或者本地的监听,这样就可以实现FAN(Fast Application Notification),应用能够接收到这些事件并进行处理。

5. gsd: 只有当CRS或者GI上需要管理9i的数据库时才需要。在11.2, gsd 默认就是offline的。
可以参考My Oracle Support 文档: GSD Is Used Only if 9i RAC Database is Present (Doc ID 429966.1)

10g和 11.1特有的:
1. oprocd.bin:Oracle Clusterware Process Monitor Daemon,用来监控主机hang,如果发现主机hang后会发起主机重启。只有未使用第三方的集群软件时才运行,Linux上从10.2.0.4开始使用。
   oprocd的日志会在:/etc/oracle/oprocd/*.log.* 或者 /var/opt/oracle/oprocd/*.log.*。

2. oclsomon.bin: 用来监控ocssd进程是否hang,如果发现hang,会发起reboot.


11.2特有的:
1. cssdagent(11.2): 这个进程由ohasd启动,然后由它来启动、停止、检查ocssd进程,以root身份运行。
   它的日志位于:<GRID_HOME>/log/<host>/agent/ohasd/oracssdagent_root

2. cssdmonitor(11.2):监控cssdagent,并且检查节点hang(类似于oprocd),监控ocssd进程是否hang(类似于oclsomon),监控vendor clusterware(类似于vmon),以root身份运行。
   它的日志位于:<GRID_HOME>/log/<host>/agent/ohasd/oracssdmonitor_root

3. ohasd.bin: 在GI启动时,最先启动的就是ohasd,然后由它启动agent(orarootagent,oraagent, cssdagnet 和 cssdmonitor) ,各个agent再启动对应的进程。  
    如果GI启动过程有问题,可以查看一下ohasd的日志:<GRID_HOME>/log/<host>/agent/ohasd


4. mdnsd.bin:这个进程通过多播(Multicast)发现集群中的节点和所有的网卡信息。一定要确定集群中的网卡支持多播,而且节点间的通信正常。
   它的日志位于:<GRID_HOME>/log/<host>/mdnsd

5. gpnpd.bin: 发布构建集群所需要的bootstrap 信息,并且在集群的所有节点之间同步gpnp profile。
   它的日志位于:<GRID_HOME>/log/<host>/gpnpd

6. gipcd.bin: 这个进程负责管理集群中所有的私网(cluster interconnect)网卡。私网信息是通过gpnpd获得的。
   它的日志位于:<GRID_HOME>/log/<host>/gipcd

7. gnsd(可选): Grid Naming Service. 相当于子DNS,功能和DNS类似,会取代使用/etc/hosts进行主机的解析。
   它的日志位于:<GRID_HOME>/log/<host>/gnsd

8. octssd.bin: The Cluster Time Sync Service(CTSS) 用于各个节点间的时钟同步,集群中的一个节点的时钟会作为参照节点,其它节点和这个节点进行时钟同步。注意:当第三方时间同步软件(例如:NTP) 存在时,CTSS会以‘观察者’的方式运行,并不修改节点时间,但是,如果CTSS没有发现第三方时间同步软件,它会开始修改节点时间以便和参考节点同步。
   它的日志位于:<GRID_HOME>/log/<host>/ctssd.

9. osysmond.bin :这是Oracle Cluster Health Monitor(CHM)的主要进程,这个进程在所有节点都会运行,sysmond会将每个节点的资源使用情况发送给cluster logger service,后者将会把所有节点的信息都接收并保存到CHM的资料库。
   它的日志位于:<GRID_HOME>/log/<host>/crfmond/crfmond.log 

10. ologgerd: 这是Oracle Cluster Health Monitor(CHM)的另一个主要进程,在一个集群中的,ologgerd 会有一个主机点(master),还有一个备节点(standby)。当ologgerd在当前的节点遇到问题无法启动后,它会在备用节点启用。
   它的日志位于:<GRID_HOME>/log/<host>/crflogd/crflogd.log


11. <XXX>agent.bin:在11.2,各个资源的启动、停止和检查都是由agent来执行的。ohasd 会把这些agent启动。

Agent包括两种,一种是ohasd的:
oraagent_grid: 启动/停止/检查/清除ora.asm, ora.evmd, ora.gipcd, ora.gpnpd, ora.mdnsd等资源。
orarootagent_root:启动/停止 /检查/清除 ora.crsd, ora.ctssd, ora.diskmon, ora.drivers.acfs, ora.crf (11.2.0.2)等资源。
oracssdagent_root: 启动/停止/检查 ocssd进程。
oracssdmonitor_root:监控cssdagent进程。

它们的日志位于:<GRID_HOME>/log/<host>/agent/ohasd

另一种是crsd的:
oraagent_grid: 启动/停止/检查/清除 asm, ora.eons, ora.LISTENER.lsnr, SCAN listeners, ora.ons, diskgroup  等资源
oraagent_oracle: 启动/停止/检查/清除 service, database 等资源
orarootagent_root : 启动/停止/检查/清除 GNS, VIP, SCAN VIP and network 等资源.
scriptagent_grid:  应用服务定制的服务。

它们的日志位于:<GRID_HOME>/log/<host>/agent/crsd


### 如何升级 Oracle Grid Infrastructure (GI) 的最佳实践和步骤 #### 准备工作 为了确保顺利升级Oracle Grid Infrastructure,准备工作至关重要。这包括备份现有配置文件以及确认当前版本和支持矩阵。 - **备份重要数据** 备份现有的`Grid Infrastructure`配置文件、日志和其他关键资源是必要的预防措施。这些操作可以防止意外情况发生时能够快速恢复系统状态[^1]。 - **验证支持性和兼容性** 检查官方文档以获取有关目标版本的支持声明,并核实硬件平台、操作系统及其他软件组件之间的兼容关系。此过程有助于识别潜在风险并提前规划解决方案[^2]。 #### 执行前测试环境搭建 建立一个独立于生产系统的测试实验室来模拟整个升级流程非常有益。通过这种方式可以在不影响实际业务的前提下发现可能遇到的问题并加以解决。 - **创建相似度高的实验场景** 尽量复制真实世界的网络拓扑结构和服务依赖项至试验台内;同时也要注意保持相同的操作系统补丁级别等细节之处的一致性[^3]。 #### 实际升级步骤概述 当一切准备就绪之后就可以按照既定计划逐步推进正式迁移: - **停机维护窗口安排** 安排适当的时间段用于实施变更活动,在这段时间里暂停对外服务以免造成不必要的干扰影响用户体验质量[^4]。 - **停止集群资源管理器(CRS)** 使用具有相应权限的账户登录到任一节点上发出指令关闭所有正在运行的应用实例及其关联的服务进程: ```shell crsctl stop crs ``` - **卸载旧版程序包** 运行Uninstall脚本移除先前部署过的二进制文件集合及相关元数据记录,但请注意保留ASM磁盘组成员资格不变以便后续重用它们作为存储介质之一. - **安装新版软件套件** 下载最新发布的ISO镜像或者压缩包形式分发物并通过图形界面向导指引完成新产品的初次设置任务,期间需指定好安装路径等相关参数选项. - **重新初始化Clusterware** 启动新的Grid Infrastructure堆栈之前先要对其进行初步配置调整使之适应本地化需求特点,比如定义SCAN IP地址范围之类的内容. - **重启CRS使更改生效** 当上述各项都处理完毕以后再输入命令唤醒休眠中的Cluster Resource Service使其恢复正常运作模式: ```shell crsctl start crs ``` - **验证升级成果** 对经过更新改造后的架构进行全面的功能性检测,确保各个组成部分均能协同合作无误地提供预期服务水平给最终使用者群体享用.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值