一、背景
| 名称 | 数量 |
|---|---|
| tikv | 3 |
| 副本 | 3 |
1.故障:
因为某些原因,两台tikv不可连接,出现region不能访问的故障
2.几条理论:
2.1.多副本原则
存在一半以上的副本则集群访问不受影响(如n副本,存活(n+1)/ 2)
2.2.数据完整性
当副本数量等于tikv的数量的时候,每一个tikv都有全部的region,只不过不是每个region都是leader
2.3.集群不可访问
当副本存活数量小于(n+1)/ 2的时候,集群不可访问,只能使用unsafe recover来恢复
二、故障处理
1.查看不可连接的store
# 记录下 "state_name": "Disconnected"的store id(我的是1,7)
tiup ctl:v4.0.13 pd -u http://pd_ip:pd_port store
2.关闭pd调度,避免恢复过程中产生异常
# 进入交互模式
tiup ctl:v4

本文介绍了一种 TiKV 集群中因部分节点失效导致的数据访问故障及其处理方法。通过具体步骤演示如何使用 unsafe-recover 命令移除故障节点,并恢复正常集群服务。
最低0.47元/天 解锁文章
335

被折叠的 条评论
为什么被折叠?



