GP数据库集群,偶尔隔两天就会发生节点的切换,镜像实例变为主实例,主实例中断。检查主实例的日志发现出现一个错误后,镜像就启动了。
错误:receive close on connection: Success (cdbfilerepconnserver.c:334)
对这个错误分析了很长时间,为什么会偶尔有一次这样的问题出现。现在集群入库量很大,每个节点上的实例数也不少,就开始怀疑是不是在高负荷的情况下,节点间的通信超时,导致镜像误认为主实例已经异常中断。
修改参数
gp_fts_probe_timeout
Specifies the allowed timeoutfor the fault detection process (ftsprobe) to establish a connection to a segment beforedeclaring it down.
Default:10 sec
将这个参数值改大,60s,近期观察没有再出现这个问题了。
针对GP数据库集群中频繁出现的节点切换问题,本文通过分析错误日志定位到可能的通信超时原因,并调整了gp_fts_probe_timeout参数值来解决这一问题。
692

被折叠的 条评论
为什么被折叠?



