Rancher Kubernetes 组件图
etcd 节点故障排除
本文介绍了对具有 etcd
角色的节点进行故障排除的命令和提示。
检查 etcd 容器是否正在运行
etcd 容器的状态应该是 Up。Up 后面显示的时间指的是容器运行的时间。
docker ps -a -f=name=etcd$
输出示例:
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
d26adbd23643 rancher/mirrored-coreos-etcd:v3.5.7 "/usr/local/bin/etcd…" 30 minutes ago Up 30 minutes etcd
etcd 容器日志记录
容器的日志记录可能包含问题的信息。
docker logs etcd
日志 | 解释 |
---|---|
health check for peer xxx could not connect: dial tcp IP:2380: getsockopt: connection refused |
无法连接到端口 2380 上显示的地址。检查 etcd 容器是否在显示地址的主机上运行。 |
xxx is starting a new election at term x |
etcd 集群失去了集群仲裁数量,并正在尝试建立一个新的 leader。运行 etcd 的大多数节点关闭/无法访问时,可能会发生这种情况。 |
connection error: desc = "transport: Error while dialing dial tcp 0.0.0.0:2379: i/o timeout"; Reconnecting to {0.0.0.0:2379 0 <nil>} |
主机防火墙正在阻止网络通信。 |
rafthttp: request cluster ID mismatch |
具有 etcd 实例日志 rafthttp: request cluster ID mismatch 的节点正在尝试加入已经添加另一个对等节点(peer)的集群。你需要从集群中删除该节点,然后再重新添加。 |
rafthttp: failed to find member |
集群状态(/var/lib/etcd )包含加入集群的错误信息。你需要从集群中删除该节点,清理状态目录,然后再重新添加。 |
etcd 集群和连接检查
运行 etcd 的主机的地址配置决定了 etcd 监听的地址。如果为运行 etcd 的主机配置了内部地址,则需要显式指定 etcdctl
的端点。如果任何命令的响应是 Error: context deadline exceeded
,则 etcd 实例不健康(仲裁丢失或实例未正确加入集群)。
检查所有节点上的 etcd 成员
输出应包含具有 etcd
角色的所有节点,而且所有节点上的输出应该是相同的。
命令:
docker exec etcd etcdctl member list