1.如何防止短时间内重启导致的集群分片恢复
改变网关中分片恢复的条件。
索引分片的恢复机制
1.分片恢复的场景
分片的分配
增加了索引的副本数
从索引备份的快照恢复数据
2.分片恢复的类型
如果分片是从本地的分片文件复制过来的,则这种分片恢复称为本地存储恢复
如果分片是从集群中的其他节点分片复制过来的,则这种分片恢复称为对等恢复
如果分片是从索引备份的快照文件恢复,则这种分片恢复称为快照恢复。
查看分片的恢复情况。
GET _cat/
curl -X POST "https://192.168.1.156:9200/_security/user/remote_monitoring_user/_password" -H "Content-Type: application/json" -d '{
"password" : "remotemonitoringuser123"
}' -u elastic:b0R3wfw73udm0YQZp2Gk -k
--查看分片恢复的情况 。
curl -u elastic:elastic -k -XGET https://localhost:9200/_cat/recovery/iot_003?v&h=i,s,t,ty,st,snode,tnode,f,fp,b,bp
[root@host-172-21-251-180 ~]# curl -u elastic:elastic -k -XGET http://localhost:9200/_cat/recovery/iot_002?v&h=i,s,t,ty,st,snode,tnode,f,fp,b,bp
[root@host-172-21-251-180 ~]#
index shard time type stage source_host source_node target_host target_node repository snapshot files files_recovered files_percent files_total bytes bytes_recovered bytes_percent bytes_total translog_ops translog_ops_recovered translog_ops_percent
iot_002 0 1s existing_store done n/a n/a localhost node-1 n/a n/a 0 0 100.0% 7 0 0 100.0% 13729 0 0 100.0%
对等恢复:type=peer
本地空分片:type=empty_store
减少不必要的分片恢复:
1.延迟分片的恢复
节点下线后多久才开始分片的恢复。默认1min,可以把它修改为5分钟。
PUT _all/_settings
{
"settings":{"index.unassigned.node_left.delayed_timeout":"5m"}
}
一旦上述配置生效,副本分片的恢复在5min之后才会开始,如果5min之内下线又返回集群,
则恢复只在上线的这个节点上进行。如果超过5min没有上线,则正常进行分片的恢复过程。
这个配置的优点是,只要下线的节点能及时返回集群,就可以减少副本分片的恢复。
2.改变网关中触发分片恢复的条件
vim elasticsearch.yml
gateway.expected_data_nodes: 5
gateway.recover_after_time: 5m
gateway.recover_after_data_nodes: 3
集群启动时,先等待出现5个数据节点才开始分片的恢复,如果过了5min还没等到集群达到5个数据节点,只要数据节点达到3个
就触发分片的恢复。将 expected_data_nodes 设置为 集群数据节点的总数,可以有效减少集群重启时不必要的分片恢复。
对于三个节点的集群可以设置为:
gateway.expected_data_nodes: 3
gateway.recover_after_time: 5m
gateway.recover_after_data_nodes: 2
也就是5分钟之内,有1个节点没有上线才开始恢复。