ES集群节点下线,Java API TCP连接写入数据异常

当一个6节点的ES集群因一个节点硬盘故障被下线后,线上运行任务时间显著增加。分析发现,尽管集群仍能运行,但由于默认分片数设置不合理,导致部分节点负担加重,TCP连接数异常。调整默认分片数并未解决问题,通过监控和日志排查,最终发现是客户端连接所有配置节点,包括已下线节点,导致长时间重试和连接分配异常。移除下线节点配置后,性能恢复正常。此问题揭示了理解组件工作原理和正确排查方向的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ES集群周六的时候因一个节点硬盘故障(新加入的三个节点,硬盘是比较新的产品出现了BUG),运维做了下线处理
按说一个6节点的ES集群,只是下线了一个节点,不应该会有特别大的影响(少了一个节点,分片少了一个写数少1/6左右的时间属于正常范围)
但是出现了线上跑数任务只要跟写ES有关系的时间都翻了好几倍,整个流程慢了9H
图一是正常的情况 图二是异常情况
图一
图二
15m 34s -> 55m 0s ↑ 40min
9m 31s -> 2h 3m 36s ↑ 114min
5m 59s -> 36m 11s ↑ 31min
59m 24s -> 2h 39m 27s ↑ 158min

通过小米监控发现其中某一台的负载比其它的都高
在这里插入图片描述
于是XX同事分析是因为之前6台节点时设置的默认分片数为6个
现在只剩5台节点,其中一台节点要被分配两个主分片以及两台节点会被分配到3个分片or副本
于是他把默认默认分片改为5个

但是我认为即便是五个节点有6个分片对于我们这个集群来说也不应该造成这么大的压力
并且除此之外集群的TCP连接数也比较异常

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值