2.网络故障定位手段
2.1 网络故障定位手段--常见网络故障引发的异常
在数据库正常工作的情况下,网络层对上层用户是透明的,但数据库在长期运行时,可能会由于各种原因导致出现网络异常或错误。
常见的因网络故障引发的异常有:
1> 数据库启动失败,报网络错误
2> 状态异常,如:节点上所有的实例都是unknown或者所有主机都切换为备机
3> 网络连接建立失败
4> 对数据库执行SQL操作时,报网络异常中断的错误
5> 连接数据库或执行查询时发生进程停止响应。数据库出现了网络故障后,主要通过使用Linux系统提供的网络相关命令工具
(ping、ifconfig、netstat、lsof等),进程堆栈查看工具(gdb、gstack),结合数据库的日志信息,进行分析定位。
本节通过举例介绍常见的网络问题,并进行基本的分析定位。
2.2 网络故障定位手段--数据库启动失败,报网络错误
问题现象1:
日志中存在如下错误信息,可能是端口被其他进程侦听
LOG:cloud not bind socket at the 10 time,is another postmaster already running on port 26000?
处理方法:
执行如下命令查看侦听该端口的进程,端口号请根据实际端口号替换
Gaiem# netstat -anop | grep 14880
根据查询结果,强行停止正在占用端口的进程或者更改数据库侦听端口
问题现象2:
使用gs_om -t status --detail查询状态,如果显示主备间连接未建立。
处理方法&