ES集群节点下线，Java API TCP连接写入数据异常

最新推荐文章于 2025-04-23 15:39:38 发布

SPlus_SS

最新推荐文章于 2025-04-23 15:39:38 发布

阅读量685

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Elasticsearch 文章标签： es

本文链接：https://blog.youkuaiyun.com/SPlus_SS/article/details/112972435

当一个6节点的ES集群因一个节点硬盘故障被下线后，线上运行任务时间显著增加。分析发现，尽管集群仍能运行，但由于默认分片数设置不合理，导致部分节点负担加重，TCP连接数异常。调整默认分片数并未解决问题，通过监控和日志排查，最终发现是客户端连接所有配置节点，包括已下线节点，导致长时间重试和连接分配异常。移除下线节点配置后，性能恢复正常。此问题揭示了理解组件工作原理和正确排查方向的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ES集群周六的时候因一个节点硬盘故障（新加入的三个节点，硬盘是比较新的产品出现了BUG），运维做了下线处理
按说一个6节点的ES集群，只是下线了一个节点，不应该会有特别大的影响（少了一个节点，分片少了一个写数少1/6左右的时间属于正常范围）
但是出现了线上跑数任务只要跟写ES有关系的时间都翻了好几倍，整个流程慢了9H
图一是正常的情况图二是异常情况

15m 34s -> 55m 0s ↑ 40min
9m 31s -> 2h 3m 36s ↑ 114min
5m 59s -> 36m 11s ↑ 31min
59m 24s -> 2h 39m 27s ↑ 158min