案例说明:
KingbaseES V8R6集群,一主多备架构,其中一个备库节点,在使用‘repmgr cluster show’查看集群状态时,出现"conninfo": invalid connection option "tcp_user_timeout"错误,其余节点正常。故障现象如下所示:
适用版本: KingbaseES V8R6
问题解决思路:
- 分析问题现象(现场错误及相关日志)。
- 通过表面故障执行测试,发现深层原因。(表面参数错误,实际libpq连接故障)
- 通过对比测试分析,找出故障解决思路。
- 测试并提供解决方案。
一、问题现象
一主多备,一个备节点,执行'repmgr cluster show',出现“conninfo": invalid connection option "tcp_user_timeout"错误,其余节点正常。
[kingbase@node202 bin]$ ./repmgr cluster show
[ERROR] following errors were found in the configuration file:
"conninfo": invalid connection option "tcp_user_timeout"
(provided: "host=192.168.1.202 user=esrep dbname=esrep port=54321 connect_timeout=10 keepalives=1 keepalives_idle=10 keepalives_interval=1 keepalives_count=3 tcp_user_timeout=9000")
[DETAIL] configuration file is: "/home/kingbase/cluster/R6/R6HA/kingbase/bin/../etc/repmgr.conf"
二、问题分析
1、查看'tcp_user_timeout'参数
如下所示,'tcp_user_timeout'在集群libpq连接串中配置了此参数:
[kingbase@node202 bin]$ cat ../etc/repmgr.conf |grep connect
conninfo='host=192.168.1.202 user=esrep