1. Rancher Kubernetes 组件-etcd 节点故障排除

原创

已于 2024-05-21 11:50:38 修改 · 1.3k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#rancher #kubernetes #etcd

于 2024-05-21 11:49:21 首次发布

Rancher Kubernetes 组件图

etcd 节点故障排除

本文介绍了对具有 etcd 角色的节点进行故障排除的命令和提示。

检查 etcd 容器是否正在运行

etcd 容器的状态应该是 Up。Up 后面显示的时间指的是容器运行的时间。

docker ps -a -f=name=etcd$

输出示例：

CONTAINER ID   IMAGE                                 COMMAND                  CREATED          STATUS          PORTS     NAMES
d26adbd23643   rancher/mirrored-coreos-etcd:v3.5.7   "/usr/local/bin/etcd…"   30 minutes ago   Up 30 minutes             etcd

etcd 容器日志记录

容器的日志记录可能包含问题的信息。

docker logs etcd

日志	解释
`health check for peer xxx could not connect: dial tcp IP:2380: getsockopt: connection refused`	无法连接到端口 2380 上显示的地址。检查 etcd 容器是否在显示地址的主机上运行。
`xxx is starting a new election at term x`	etcd 集群失去了集群仲裁数量，并正在尝试建立一个新的 leader。运行 etcd 的大多数节点关闭/无法访问时，可能会发生这种情况。
`connection error: desc = "transport: Error while dialing dial tcp 0.0.0.0:2379: i/o timeout"; Reconnecting to {0.0.0.0:2379 0 <nil>}`	主机防火墙正在阻止网络通信。
`rafthttp: request cluster ID mismatch`	具有 etcd 实例日志 `rafthttp: request cluster ID mismatch` 的节点正在尝试加入已经添加另一个对等节点（peer）的集群。你需要从集群中删除该节点，然后再重新添加。
`rafthttp: failed to find member`	集群状态（`/var/lib/etcd`）包含加入集群的错误信息。你需要从集群中删除该节点，清理状态目录，然后再重新添加。

etcd 集群和连接检查

运行 etcd 的主机的地址配置决定了 etcd 监听的地址。如果为运行 etcd 的主机配置了内部地址，则需要显式指定 etcdctl 的端点。如果任何命令的响应是 Error: context deadline exceeded，则 etcd 实例不健康（仲裁丢失或实例未正确加入集群）。