线上 ELK 集群健康值 red 状态问题排查与解决

最新推荐文章于 2025-07-08 17:32:08 发布

原创

最新推荐文章于 2025-07-08 17:32:08 发布 · 1.8k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Java #Linux #ElasticSearch

本文详细记录了一次Elasticsearch集群出现红色状态(red)的故障排查过程，包括服务器资源监控、集群状态检查，以及如何通过关闭和删除索引解决高CPU和内存占用问题。

原文地址： haifeiWu的博客
博客地址：www.hchstudio.cn
欢迎转载，转载请注明作者及出处，谢谢！

之前一直运行正常的数据分析平台，最近一段时间没有注意发现日志索引数据一直未生成，大概持续了n多天，当前状态: 单台机器, Elasticsearch（下面称ES）单节点(空集群),1000+shrads, 约200G大小。

问题排查

服务器内存，CPU状态检查

使用 top 查看服务器 cpu，内存等占用情况，如下图示（当时楼主的服务器ES应用的CPU占用在90%以上，肯定有问题）
top

内存占用也极高（当时楼主的8G内存的服务器仅剩下150M左右的空闲，肯定是ES的问题）
free

ES集群状态

查看ES集群健康值，发现 status 为 red，这种状态表示部分主分片不可用，楼主当前的状态是历史数据可查，但是无法生成新的 index 数据。

curl http://localhost:9200/_cluster/health?pretty

{
  "cluster_name" : "elasticsearch",
  "status" : "red",
  "timed_out" : false,
  "number_of_nodes" : 1,
  "number_of_data_nodes" : 1,
  "active_primary_shards" : 663,
  "active_shards" : 663,
  "relocating_shards" : 0,
  "initializing_shards" : 0,
  "unassigned_shards" : 6,
  "delayed_unassigned_shards" : 0,
  "number_of_pending_tasks" :