1. Rancher Kubernetes 组件-etcd 节点故障排除

RancherKubernetes中etcd故障排查与维护指南

Rancher Kubernetes 组件图

etcd 节点故障排除

本文介绍了对具有 etcd 角色的节点进行故障排除的命令和提示。

检查 etcd 容器是否正在运行

etcd 容器的状态应该是 UpUp 后面显示的时间指的是容器运行的时间。

docker ps -a -f=name=etcd$

输出示例:

CONTAINER ID   IMAGE                                 COMMAND                  CREATED          STATUS          PORTS     NAMES
d26adbd23643   rancher/mirrored-coreos-etcd:v3.5.7   "/usr/local/bin/etcd…"   30 minutes ago   Up 30 minutes             etcd

etcd 容器日志记录

容器的日志记录可能包含问题的信息。

docker logs etcd

日志 解释
health check for peer xxx could not connect: dial tcp IP:2380: getsockopt: connection refused 无法连接到端口 2380 上显示的地址。检查 etcd 容器是否在显示地址的主机上运行。
xxx is starting a new election at term x etcd 集群失去了集群仲裁数量,并正在尝试建立一个新的 leader。运行 etcd 的大多数节点关闭/无法访问时,可能会发生这种情况。
connection error: desc = "transport: Error while dialing dial tcp 0.0.0.0:2379: i/o timeout"; Reconnecting to {0.0.0.0:2379 0 <nil>} 主机防火墙正在阻止网络通信。
rafthttp: request cluster ID mismatch 具有 etcd 实例日志 rafthttp: request cluster ID mismatch 的节点正在尝试加入已经添加另一个对等节点(peer)的集群。你需要从集群中删除该节点,然后再重新添加。
rafthttp: failed to find member 集群状态(/var/lib/etcd)包含加入集群的错误信息。你需要从集群中删除该节点,清理状态目录,然后再重新添加。

etcd 集群和连接检查

运行 etcd 的主机的地址配置决定了 etcd 监听的地址。如果为运行 etcd 的主机配置了内部地址,则需要显式指定 etcdctl 的端点。如果任何命令的响应是 Error: context deadline exceeded,则 etcd 实例不健康(仲裁丢失或实例未正确加入集群)。

检查所有节点上的 etcd 成员

输出应包含具有 etcd 角色的所有节点,而且所有节点上的输出应该是相同的。

命令:

docker exec etcd etcdctl member list

检查端点状态

在 Helm 安装或升级过程中,如果遇到类似以下错误: ``` Error: UPGRADE FAILED: rendered manifests contain a resource that already exists. Unable to continue with update: Secret "bootstrap-secret" in namespace "cattle-system" exists and cannot be imported into the current release: invalid ownership metadata; label validation error: missing key "app.kubernetes.io/managed-by": must be set to "Helm"; annotation validation error: missing key "meta.helm.sh/release-name": must be set to "rancher"; annotation validation error: missing key "meta.helm.sh/release-namespace": must be set to "cattle-system" ``` 这通常是因为目标 Kubernetes 集群中已经存在与当前 Helm 发布版本冲突的资源(如 `Secret`),但这些资源没有被正确标记为由 Helm 管理。具体来说,缺少以下关键标签和注解: - 标签:`app.kubernetes.io/managed-by: Helm` - 注解:`meta.helm.sh/release-name: <release-name>` - 注解:`meta.helm.sh/release-namespace: <namespace>` ### 修复方法 #### 方法一:手动更新现有资源的标签和注解 可以通过 `kubectl` 手动为已存在的资源添加所需的标签和注解。例如,针对一个名为 `bootstrap-secret` 的 Secret,执行以下命令: ```bash # 添加标签 kubectl label secret bootstrap-secret app.kubernetes.io/managed-by=Helm -n cattle-system # 添加注解 kubectl annotate secret bootstrap-secret meta.helm.sh/release-name=rancher -n cattle-system kubectl annotate secret bootstrap-secret meta.helm.sh/release-namespace=cattle-system -n cattle-system ``` 完成上述操作后,再次尝试 Helm 安装或升级命令。 #### 方法二:删除已有资源并重新安装 如果该资源可以安全删除(例如尚未投入使用),可以直接删除现有资源并让 Helm 重新创建: ```bash kubectl delete secret bootstrap-secret -n cattle-system ``` 然后运行 Helm 安装或升级命令。 #### 方法三:使用 Helm 的 `--force` 或 `--replace` 参数 Helm 提供了 `--force` 和 `--replace` 参数来强制替换已有的资源,适用于某些场景下的覆盖安装: ```bash helm upgrade --install rancher ./rancher --namespace cattle-system --force ``` 请注意,这种方式可能会导致数据丢失或服务中断,务必评估其适用性。 ### 最佳实践建议 - 在使用 Helm 安装应用前,确保目标命名空间中不存在同名资源。 - 对于生产环境,建议结合 CI/CD 工具进行 Helm 部署,并通过测试验证资源状态。 - 使用 Helm Hooks 控制资源的创建顺序,避免因资源冲突导致失败 [^1]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

K8S解决方案

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值