Elasticsearch节点磁盘空间耗尽

最新推荐文章于 2025-07-23 23:22:18 发布

quicknet

最新推荐文章于 2025-07-23 23:22:18 发布

阅读量1.6w

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/quicknet/article/details/65396282

本文描述了一个Elasticsearch集群中数据节点磁盘空间耗尽导致的严重后果，包括数据损坏和集群状态变为RED。日志显示，磁盘空间不足影响了segment merge操作和translog的完整性，可能导致数据丢失。根据社区讨论，手动删除.recovering文件可能是恢复的一种方法，但未实际验证。由于缺乏副本，当主节点出现问题时，没有备份可用。Elasticsearch依赖本地文件系统存储Lucene文件，因此磁盘空间管理至关重要，可通过cluster.routing.allocation.disk.watermark.low设置来控制。

最近遇到了一个特殊的情况，我们所使用的一个Elasticsearch集群的数据节点磁盘空间耗尽(out of space)，啥事会发生呢？数据损坏，集群RED。下面是相关的日志信息，我将其中一些关键点日志信息重点小时。这里 ES-Data_IN_11是当时的Master节点，ES-Data_IN_12是出现的磁盘耗尽的数据节点，出事儿的index名字为raw_v3.2017_03_22，我们仍然使用的是Elasticsearch 1.7.2。

[2017-03-22 11:57:30,503][WARN ][index.merge.scheduler ] [ES-Data_IN_12] [raw_v3.2017_03_22][1] failed to merge

[2017-03-22 11:57:30,646][WARN ][index.engine ] [ES-Data_IN_12] [raw_v3.2017_03_22][1] failed engine [merge exception]

[2017-03-22 11:57:30,663][WARN ][indices.cluster ] [ES-Data_IN_12] [[raw_v3.2017_03_22][1]] marking and sending shard failed due to [engine failure, reason [merge exception]]

[2017-03-22 11:57:31,677][WARN ][cluster.action.shard ] [ES-Data_IN_11] [raw_v3.2017_03_22][1] received shard failed for [raw_v3.2017_03_22][1], node[h9d1tKJFRtmg1aG-VMkA4A], [P], s[STARTED], indexUUID [2Z-UtAr8Qx2h6Xe9BkxvAA], reason [shard failure [engine failure, reason [merge exception ]]<