记录Elasticsearch 分片恢复问题

ES集群重启后黄色健康状态：分片未分配原因及解决

原创已于 2022-07-26 14:19:38 修改 · 3.8k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch #big data #大数据

于 2022-04-14 16:27:53 首次发布

ES 专栏收录该内容

6 篇文章

订阅专栏

本文探讨了ES重启后健康状态转为黄色，由于分片未分配的问题，分析了多种可能原因，如集群恢复、副本数调整等。提供了检查和解决步骤，包括检查分配开关、修改副本数，并强调了恢复过程中的负载影响和存储变化。

问题描述：

ES在重启只有健康状态变为yellow，有几个分片未分配成功
在这里插入图片描述
查看原因：是因为集群恢复导致的

常见的几种未分配原因如下：
ALLOCATION_FAILED：由于分片分配失败而未分配。
CLUSTER_RECOVERED：由于集群恢复而未分配。
DANGLING_INDEX_IMPORTED：由于导入了悬空索引导致未分配。
EXISTING_INDEX_RESTORED：由于恢复为已关闭的索引导致未分配。
INDEX_CREATED：由于API创建索引而未分配。
INDEX_REOPENED：由于打开已关闭索引而未分配。
NEW_INDEX_RESTORED：由于恢复到新索引而未分配。
NODE_LEFT：由于托管的节点离开集群而未分配。
REALLOCATED_REPLICA：确定了更好的副本位置，并导致现有副本分配被取消。
REINITIALIZED：当分片从开始移动回初始化，导致未分配。
REPLICA_ADDED：由于显式添加副本而未分配。
REROUTE_CANCELLED：由于显式取消重新路由命令而未分配。

问题解决：

1、查看集群分片分配开关是否打开

如果没打开可以通过以下参数开启，正常集群会自动分配。

curl -H "Content-Type: application/json" -XPUT http://host:9200/_cluster/settings -d '{"transient" : {"cluster.routing.allocation.enable" : "all"}}'

2、改变对应索引副本数。

此索引有1个副本，由于有问题的分片都是从分片，可以将副本数改为0，只保留主分片，可以解决此问题。

curl -H "Content-Type: application/json" -XPUT  host:9200/jdfw_md/_settings -d '{ "index": {"number_of_replicas": "1"}}'

执行后集群状态恢复
在这里插入图片描述
为安全起见再将副本数调整为1，集群会自动生成对应的副本，但是耗时比较长，需要等待一段时间，本次恢复花费了近三个小时，如图：
调整为1后健康状态为yellow，此时还在恢复中

恢复后存储大小提升一倍
在这里插入图片描述
对应时间段内，集群整体负载会有所提高