elasticsearch 索引 red 状态恢复 green

本文介绍两种解决Elasticsearch集群状态变红的方法:一种是通过重新分配未分配的节点来恢复正常;另一种是通过增加新的节点使集群自动平衡,从而解决问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

方案一

找到状态为 red 的索引

curl -X GET "http://172.xxx.xxx.174:9288/_cat/indices?v="

red    open   index                          5   1    3058268        97588      2.6gb          1.3gb

状态为 red 是无法对外提供服务的,说明有主节点没有分配到对应的机子上。

找到 UNASSIGNED 节点

_cat/shards 能够看到节点的分配情况

curl -X GET "http://172.xxx.xxx.174:9288/_cat/shards"

index                            shard prirep state        docs   store   ip             node         
index                      1    p     STARTED     764505 338.6mb 172.xxx.xxx.174 Calypso      
index                      1    r     STARTED     764505 338.6mb 172.xxx.xxx.89  Savage Steel
index                      2    p     STARTED     763750 336.6mb 172.xxx.xxx.174 Calypso      
index                      2    r     STARTED     763750 336.6mb 172.xxx.xxx.88  Temugin      
index                      3    p     STARTED     764537 340.2mb 172.xxx.xxx.89  Savage Steel
index                      3    r     STARTED     764537 340.2mb 172.xxx.xxx.88  Temugin      
index                      4    p     STARTED     765476 339.3mb 172.xxx.xxx.89  Savage Steel
index                      4    r     STARTED     765476 339.3mb 172.xxx.xxx.88  Temugin      
index                      0    p     UNASSIGNED                                             
index                      0    r     UNASSIGNED    

index 有一个主节点 0 和一个副本 0 处于 UNASSIGNED 状态,也就是没有分配到机子上,因为主节点没有分配到机子上,所以状态为 red
从 ip 列可以看出一共有三台机子,尾数分别为 17489 以及 88。一共有 10 个 index 所以对应的 elasticsearch 的 index.number_of_shards: 5index.number_of_replicas: 1。一共有 10 个分片,可以按照 3,3,4 这样分配到三台不同的机子上。88 和 89 机子都分配多个节点,所以可以将另外一个主节点分配到 174 机子上。

找出机子的 id

找到 174 机子对应的 id,后续重新分配主节点得要用到

curl -X GET "http://172.xxx.xxx.174:9288/_nodes/process?v="
{
  "cluster_name": "es2.3.2-titan-cl",
  "nodes": {
    "Leivp0laTYSqvMVm49SulQ": {
      "name": "Calypso",
      "transport_address": "172.xxx.xxx.174:9388",
      "host": "172.xxx.xxx.174",
      "ip": "172.xxx.xxx.174",
      "version": "2.3.2",
      "build": "b9e4a6a",
      "http_address": "172.xxx.xxx.174:9288",
      "process": {
        "refresh_interval_in_millis": 1000,
        "id": 32130,
        "mlockall": false
      }
    },
    "EafIS3ByRrm4g-14KmY_wg": {
      "name": "Savage Steel",
      "transport_address": "172.xxx.xxx.89:9388",
      "host": "172.xxx.xxx.89",
      "ip": "172.xxx.xxx.89",
      "version": "2.3.2",
      "build": "b9e4a6a",
      "http_address": "172.xxx.xxx.89:9288",
      "process": {
        "refresh_interval_in_millis": 1000,
        "id": 7560,
        "mlockall": false
      }
    },
    "tojQ9EiXS0m6ZP16N7Ug3A": {
      "name": "Temugin",
      "transport_address": "172.xxx.xxx.88:9388",
      "host": "172.xxx.xxx.88",
      "ip": "172.xxx.xxx.88",
      "version": "2.3.2",
      "build": "b9e4a6a",
      "http_address": "172.xxx.xxx.88:9288",
      "process": {
        "refresh_interval_in_millis": 1000,
        "id": 47701,
        "mlockall": false
      }
    }
  }
}

174 机子对应的 id 为 Leivp0laTYSqvMVm49SulQ

为了简单也可以直接将该主分片放到 master 机子上,但是如果节点过于集中肯定会影响性能,同时会影响宕机后数据丢失的可能性,所以建议根据机子目前节点的分布情况重新分配。

curl -X GET "http://172.xxx.xxx.174:9288/_cat/master?v="
id                     host          ip            node         
EafIS3ByRrm4g-14KmY_wg 172.xxx.xxx.89 172.xxx.xxx.89 Savage Steel

分配 UNASSIGNED 节点到机子

得要找到 UNASSIGNED 状态的主分片才能够重新分配,如果重新分配不是 UNASSIGNED 状态的主分片,例如我视图重新分配 shard 1 会出现如下的错误。

curl -X POST -d '{
    "commands" : [ {
      "allocate" : {
          "index" : "index",
          "shard" : 1,
          "node" : "EafIS3ByRrm4g-14KmY_wg",
          "allow_primary" : true
      }
    }]
}' "http://172.xxx.xxx.174:9288/_cluster/reroute"

{
  "error": {
    "root_cause": [
      {
        "type": "remote_transport_exception",
        "reason": "[Savage Steel][172.xxx.xxx.89:9388][cluster:admin/reroute]"
      }
    ],
    "type": "illegal_argument_exception",
    "reason": "[allocate] failed to find [index][1] on the list of unassigned shards"
  },
  "status": 400
}

重新分配 index shard 0 到某一台机子。_cluster/reroute 的参数 allow_primary 得要小心,有概率会导致数据丢失。具体的看看官方文档该接口的说明吧。

curl -X POST -d '{
    "commands" : [ {
      "allocate" : {
          "index" : "index",
          "shard" : 0,
          "node" : "Leivp0laTYSqvMVm49SulQ",
          "allow_primary" : true
      }
    }]
}' "http://172.xxx.xxx.174:9288/_cluster/reroute"

{
  "acknowledged": true,
  .........
  "index": {
    "shards": {
      "0": [
        {
          "state": "INITIALIZING",
          "primary": true,
          "node": "Leivp0laTYSqvMVm49SulQ",
          "relocating_node": null,
          "shard": 0,
          "index": "index",
          "version": 1,
          "allocation_id": {
            "id": "wk5q0CryQpmworGFalfWQQ"
          },
          "unassigned_info": {
            "reason": "INDEX_CREATED",
            "at": "2017-03-23T12:27:33.405Z",
            "details": "force allocation from previous reason INDEX_REOPENED, null"
          }
        },
        {
          "state": "UNASSIGNED",
          "primary": false,
          "node": null,
          "relocating_node": null,
          "shard": 0,
          "index": "index",
          "version": 1,
          "unassigned_info": {
            "reason": "INDEX_REOPENED",
            "at": "2017-03-23T11:56:25.568Z"
          }
        }
      ]
      }
    }
    .............
}

输出结果只罗列出了关键部分,主节点处于 INITIALIZING 状态,在看看索引的状态

curl -X GET "http://172.xxx.xxx.174:9288/_cat/indices?v="

green  open   index                          5   1    3058268        97588      2.6gb          1.3gb

索引状态已经为 green,恢复正常使用。

以上参考 ELASTICSEARCH几个问题的解决

方案二

找一台空的机子,与现有的机子组成集群,由于新机子的加入机子的节点将会被分配,状态也就会恢复。等集群中所有的节点的状态变为 green 就可以关闭新加入的机子。

<think>好的,用户现在想了解Elasticsearch中_cat/indices命令中的红色和绿色状态。首先,我需要回顾之前提供的关于索引管理和集群健康状态的信息,确保现在的内容保持一致。 用户的问题可能涉及到索引的健康状态,我需要先解释_cat/indices的作用,然后详细说明green、yellow、red这三种状态分别代表什么。可能用户遇到了集群健康问题,或者想监控索引状态,所以需要明确每个状态的含义和可能的原因。 接下来,要确保回答结构清晰,按照之前的格式,可能分为基本概念、颜色状态解释、实际应用示例、注意事项和常见问题。需要注意使用正确的HTTP请求示例,并遵循LaTeX格式要求,比如用$包裹行内代码,独立公式用$$。 还要考虑用户可能不知道如何解读这些状态,所以需要给出每个状态的具体场景,比如green表示所有分片正常,yellow是主分片正常但副本未分配,red是有主分片不可用。同时,用户可能需要知道如何解决问题,所以得提供一些建议,比如检查节点数量、磁盘空间等。 另外,用户可能混淆了索引状态和集群状态,需要明确说明_cat/indices显示的是索引级别的状态,而_cluster/health是集群整体状态。可能还要提到状态的计算方式,比如集群状态取最差情况,而索引状态独立。 最后,要注意使用中文,保持回答的易懂性,避免技术术语过于复杂,同时确保示例正确,比如GET请求的格式,参数的使用如?v和?pretty,以及可能的实际输出示例,帮助用户直观理解。</think>以下是关于Elasticsearch `_cat/indices` 接口中 **红色(red)** 和 **绿色(green)** 状态的详细解析: --- ### 一、基本概念 通过以下命令可查看索引健康状态: ```http $GET /_cat/indices?v$ ``` 输出列包含: ``` health | status | index | uuid | pri | rep | docs.count | store.size ``` --- ### 二、颜色状态详解 | 颜色 | 含义 | 典型场景 | |--------|----------------------------------------------------------------------|--------------------------------------------------------------------------| | **🟢 green** | 索引的所有主分片和副本分片均已正常分配 | 集群完全健康,数据冗余充足 | | **🟡 yellow** | 主分片全部就绪,但存在未分配的副本分片 | 单节点集群(默认不分配副本)<br>节点宕机导致副本丢失 | | **🔴 red** | 至少有一个主分片未分配(数据可能丢失) | 节点永久故障导致主分片丢失<br>索引创建失败未完成分片分配 | --- ### 三、实际应用示例 #### 1. 查看异常索引 ```http $GET /_cat/indices?v&health=red$ ``` 仅显示红色状态索引 #### 2. 完整状态输出示例 ``` health | status | index | pri | rep | docs.count green | open | logs-2023 | 5 | 1 | 1,000,000 yellow | open | metrics | 3 | 1 | 500,000 red | open | test | 2 | 1 | 0 ``` --- ### 四、关键注意事项 1. **集群状态优先级规则** $$ \text{集群状态} = \max(\text{所有索引状态}) $$ 任意索引变红 → 整个集群状态显示为红色 2. **黄色状态处理建议** - 增加数据节点 - 调整副本数:`$PUT /index/_settings$ { "index.number_of_replicas": 1 }` 3. **红色状态紧急处理** - 检查节点存活状态:`$GET /_cat/nodes$` - 查看未分配分片详情:`$GET /_cluster/allocation/explain$` - 强制删除损坏索引(慎用):`$DELETE /red_index$` --- ### 五、常见问题排查 #### 案例:索引持续红色 1. 检查分片分配原因: ```http $GET /_cluster/allocation/explain?pretty$ ``` 2. 典型输出线索: ```json { "unassigned_info": { "reason": "NODE_LEFT", "details": "node_left[1.1.1.1]" } } ``` 3. 解决方案: - 恢复宕机节点 或 - 手动重路由分片:`$POST /_cluster/reroute$` --- ### 六、进阶监控技巧 1. 组合监控字段: ```http $GET /_cat/indices?v&h=index,health,pri,rep,docs.count,store.size$ ``` 2. 颜色代码对应值: - green → 0 - yellow → 1 - red → 2 通过定期监控这些状态指标,可以有效预防数据丢失风险并优化集群性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值