etcd 三节点集群宕掉一个节点后，剩下的两个节点通常无法完成 Leader 选举

原创已于 2025-07-30 23:31:39 修改 · 924 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#etcd #数据库 #服务器

于 2025-07-30 16:53:15 首次发布

K8s 专栏收录该内容

506 篇文章

订阅专栏

目录标题

- - 📌 为什么无法完成 Leader 选举？
  - 🛠 是否可以手动干预？如何干预？
  - 🔧 etcd 如何应对？（自动机制与最佳实践）
  - 📎 总结

etcd 三节点集群宕掉一个节点后，剩下的两个节点通常无法完成 Leader 选举，原因在于 Raft 共识算法对“大多数”的要求。以下是详细解释、手动干预方法和 etcd 的应对策略：

📌 为什么无法完成 Leader 选举？

Raft 的“大多数”原则：
- Raft 要求任何需要提交日志条目（包括 Leader 选举本身）的操作都必须得到集群大多数节点的同意。
- 在 3 节点集群中，“大多数”是 2（因为 ceil(3/2) = 2）。
- 当 3 个节点都健康时，Leader 选举或日志提交需要至少 2 个节点同意。
宕机一个节点后的状态：
- 只剩下 2 个节点在线。
- 这 2 个节点要达成共识，需要满足“大多数”原则，即需要 2 个节点都同意。
选举失败的关键原因：
- 网络分区或延迟： 即使两个节点都健康，它们之间的网络也可能不稳定。如果一个节点的投票请求或心跳响应稍有延迟或丢失，另一个节点就可能因超时而发起新一轮选举。这时，两个节点可能同时成为候选人。
- “平票”问题： 当两个节点同时成为候选人时：
  - 节点 A 投票给自己，并请求节点 B 的投票。
  - 节点 B 投票给自己，并请求节点 A 的投票。
  - 节点 A 收到 B 的投票请求时，它已经为自己投过票了（且在同一个任期内），根据 Raft 规则，它会拒绝 B 的投票请求。
  - 同样，节点 B 也会拒绝 A 的投票请求。
  - 结果：两个候选人都只获得了自己的一票，无法达到所需的 2 票（“大多数”）。选举失败。
- 持续的失败循环： 选举失败后，节点会等待一个随机的选举超时时间（通常 150-300ms），然后再次尝试选举。由于网络的不确定性和超时时间的随机性，这种“平票”情况很可能反复发生，导致集群长时间无法选出 Leader，集群处于不可用状态。

🛠 是否可以手动干预？如何干预？

是的，可以且通常需要手动干预来恢复集群的可用性。主要方法有：

恢复宕掉的节点：
- 最推荐、最安全的方式！ 如果宕掉的节点只是临时故障（如机器重启、进程崩溃、短暂网络隔离），优先尝试修复并重启该节点。
- 一旦该节点成功重新加入集群，集群恢复到 3 个节点。此时“大多数”仍是 2，两个正常节点很容易达成共识选出 Leader（原 Leader 可能恢复，或重新选举）。
- 操作： 启动宕掉节点上的 etcd 进程（确保配置正确，特别是 --initial-cluster 和 --initial-cluster-state=existing）。
从集群中移除宕掉的节点：
- 如果宕掉的节点无法恢复（如硬件永久损坏），则需要将其永久移除。
- 移除后，集群从 3 节点变为 2 节点。
- 关键点： 移除操作本身需要集群“大多数”同意！ 这就是为什么在只剩 2 个节点时移除操作通常需要特殊处理：
  - 理想情况（原 Leader 仍在线）： 如果剩下的两个节点中有一个是 Leader（例如节点 A 是 Leader，节点 B 是 Follower，节点 C 宕机），那么可以直接在 Leader 节点上执行移除命令：
```
etcdctl member remove <member-id-of-c>
```
    这个移除提案只需要 Leader 和另一个 Follower（节点 B）同意即可提交（2个节点同意满足“大多数”=2）。
  - 复杂情况（无 Leader）： 如果两个节点都无法选出 Leader（即处于持续的平票状态），标准的 etcdctl member remove 命令无法执行，因为它需要集群有 Leader 来处理成员变更请求。
    - 解决方案： 使用 etcdctl endpoint status -w json 检查两个节点的数据状态。选择数据最新（RaftTerm 高且 RaftIndex 高）的那个节点，在其配置文件中临时添加 --force-new-cluster 标志并重启它。
    - 作用： 这个标志让该节点脱离原有集群配置，以单节点集群的身份强制启动（数据保留）。它将自己选为 Leader。
    - 后续： 这个节点启动成功后，它就成为了一个单节点集群。此时，使用 etcdctl member remove 安全地移除那个宕掉的节点（C）。然后，修改这个单节点的配置，移除 --force-new-cluster 标志，并添加 --initial-cluster 指向它自己（现在是一个节点的集群），重启它使其以正常的单节点模式运行。
    - 恢复规模： 最后，使用 etcdctl member add 将另一个健康的节点（B）加入这个新的单节点集群，重新形成一个新的 2 节点集群（或尽快添加第三个新节点形成 3 节点集群）。
- 风险警告： --force-new-cluster 是一个破坏性操作，使用不当可能导致数据丢失。仅在其他方法无效且明确知道哪个节点数据最新时使用。操作前务必备份数据！

🔧 etcd 如何应对？（自动机制与最佳实践）

Raft 选举超时随机化：
- etcd (Raft) 使用随机的选举超时时间（通常在 100ms 之间）。这是为了尽量避免多个 Follower 同时超时并成为候选人，从而减少平票发生的概率。在 2 节点场景下，这降低了但不能完全消除平票的可能性。
预投票机制：
- etcd 实现了 Raft 的 Pre-Vote 阶段。在 Follower 转变成候选人之前，它会先发起一轮“预投票”询问其他节点是否愿意在下一任期投票给它。
- 目的： 如果一个节点因为网络分区暂时联系不上 Leader 但能联系上其他节点，预投票会失败（其他节点知道有 Leader），阻止它发起不必要的真实选举。这有助于在网络不稳定时维持 Leader 的稳定性。
- 在 2 节点中的作用： 如果一个节点短暂失联后恢复，预投票机制可以阻止它立即发起可能引起平票的真实选举，让原 Leader（如果另一个节点是 Leader）有机会维持地位。但这不能解决两个节点同时认为没有 Leader 而发起选举的问题。
日志警告与监控：
- etcd 会持续输出日志，报告 Leader 丢失、选举失败、无法达成仲裁等信息。
- 应对： 强烈的监控和告警是关键！ 当检测到集群失去 Leader 或成员不健康时，运维人员需要及时介入，采取上述手动恢复措施。
最根本的应对：集群规模设计
- etcd 强烈推荐使用奇数个节点（3, 5, 7…）。
- 原因： 一个 N 节点的集群可以容忍 F = floor((N-1)/2) 个节点故障。对于：
  - N=3: F=1 (宕 1 个后剩 2 个，需 2 个同意，但易平票不稳定)
  - N=4: F=1 (宕 1 个后剩 3 个，需 3 个同意？不，需 ceil(4/2)+1 = 3 同意！宕 2 个就彻底挂了)
  - N=5: F=2 (宕 2 个后剩 3 个，需 3 个同意？需 ceil(5/2)=3 同意。宕 2 个后剩下的 3 个能正常选举和工作)
- 结论：
  - 3 节点： 成本最低，能容忍 1 节点故障，但故障后剩 2 节点不稳定（易平票）。
  - 5 节点： 推荐用于生产。能容忍 2 节点故障，即使宕掉 2 个，剩下的 3 个节点也能稳定地达成共识（需要 3 同意，3 个节点很容易选出 Leader 和提交日志），彻底避免了 2 节点平票问题。比 4 节点更可靠且容错能力更高。

📎 总结

宕机原因： 3 节点宕 1 剩 2 时，Raft 要求“大多数”（2 票）才能选出 Leader。但因网络延迟或同时发起选举导致的“平票”（各 1 票）使选举反复失败。
手动干预：
- 首选恢复宕机节点。
- 无法恢复时，需移除宕机节点。若剩 2 节点且无 Leader，需在数据最新的节点上谨慎使用 --force-new-cluster 强制成单节点集群，再移除旧成员，最后重建集群（2 节点或添加新节点到 3 节点）。
etcd 应对： 依赖随机超时和预投票减少平票概率，但无法根治 2 节点问题。核心是通过监控告警触发人工介入，以及使用 5 节点（或更大奇数）集群从根本上避免宕机后陷入不稳定的 2 节点状态。5 节点集群在宕掉 2 个节点后，剩下的 3 个节点能稳定工作，是生产环境的推荐配置。 💪🏻