GaussDB 200 Release-6.5.1 - 集群节点实例有异常
原因
因为项目数据量太大造成数据库集群节点实例引起的异常,在OMS上无法启动节点实例问题。
数据库集群可以使用,集群状态为降级状态,数据库性能下降,数据库只有主备,无法做数据库负载均衡。使用环境,数据量很大,所以要紧急修复此节点,问题已解决、在此记录。
检查异常的节点,首先排查网络问题。
环境
数据库版本 :6.5.1
系统 :CentOS-7.6
平台架构 :ARM64
错误排查
- 查看集群状态
- 查看cm_agent
- 查看om_monitor
- 后台启动实例
- 查看D进程信息
- 用top命令查看进程
- 查看cm日志
- 查看dn日志
- gsql登录dn实例数据库
- 查看端口
- 从WEB端收集日志
- 记录各节点磁盘空间
- 查看postgresql.conf配置文件
- 修复异常实例
- 实例重置
- 恢复集群负载均衡
操作步骤
- 以操作系统用户omm登录GaussDB 200集群任一主机。
执行source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile命令启动环境变量。
- 查询并确认集群运行状态及“balanced”状态。
“cluster_state”为“Normal”表示集群运行正常。“balanced”状态为“No”表示集群实例发生过主备切换。
gs_om -t status --detail
3.使用如下命令查看集群状态确认是哪些节点上的实例发生过主备切换。
gs_om -t status --detail
4.查看那个节点状态异常
5.查看cm_agent 进程
ps -eaf | grep cm_agent
6.查看om_monitor进程