k8s删除网络组件错误

k8s集群网络组件更换后IP分配报错解决

最新推荐文章于 2025-07-13 13:53:57 发布

原创最新推荐文章于 2025-07-13 13:53:57 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#kubernetes #容器 #云原生

kubernetes 专栏收录该内容

40 篇文章

订阅专栏

k8s集群删除calico网络组件重新部署flannel网络组件，再部署pod后出现报错不能分配ip地址

 plugin type="calico" failed (add): error getting ClusterInformation: connection is unauthorized: Unauthorized

出现该问题是因为删除网络组件后，网络组件的配置文件未被删除

ls /etc/cni/net.d

将所有节点的calico配置文件删除即可

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Apex Predator

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

精选资源

k8s-resume:k8s简历

03-22

1. **基础概念**：可能会涵盖k8s的基本组件，如Nodes、Pods、Services、Deployments、ReplicaSets、ConfigMaps和Secrets等，以及它们在故障恢复中的角色。 2. **故障诊断**：介绍如何使用kubectl命令查询集群状态，...

参与评论您还未登录，请先登录后发表或查看评论

k8s 基础组件详解

congge

12-15

3499

k8s 基础组件总结

k8s安装卸载、Dashboard、KubeSphere、资源管理、Pod、Service、Ingress、K8s持久化配置、存储配置、K8s部署项目

殇的不悔

09-15

4186

k8s安装卸载、Dashboard、KubeSphere、资源管理、Pod、Service、Ingress、K8s持久化配置、存储配置、K8s部署项目

解决plugin type=“calico“ failed (add): error getting ClusterInformation: connection is unauthorized: U

qq_21277357的博客

11-30

4428

当k8s 删除pod ,创建pod 查看详细信息的时候，发现网络错误。

Failed to create pod sandbox: rpc error: code = Unknown desc = [failed to set up sandbox container “

weixin_45053774的博客

05-17

9800

【代码】Failed to create pod sandbox: rpc error: code = Unknown desc = [failed to set up sandbox container “

2、玩转kubesphere之cni网络插件异常问题

weixin_40807433的博客

12-27

3510

你的异常现象会出现如下图一样，某些节点创建Pod会一直卡在ContainerCreating的状态无法顺利创建并且就绪点进pod里面你会看到这样的异常信息

kubelet sandbox创建与calico cni网络配置流程 (二)

polarwu的博客

09-13

2374

上一篇文章分析了kubelet创建pod时首先需要创建一个sandbox容器，该容器保证了k8s的pod中多个容器使用同一个网络命名空间，每个容器能够像访问本地端口一样访问对端容器端口。虽然sandbox的创建流程和运行时参数配置的代码我们都一一分析过了，实际的容器网络也是调用cni插件配置，但是cni插件是怎么工作的呢，这一节我们着重从cni(以caliclo为例)插件一端分析网络配置过程。...

K8S第三讲 Kubernetes集群配置网络插件

程序员路同学

05-02

2318

K8S第三讲 Kubernetes集群配置网络插件

k8s网络组件flannel的mac地址重复解决以及会引起的问题

风水道人

04-11

1086

在 Kubernetes 集群中使用 Flannel 时，如果出现问题，通常是由于 Flannel 的 VXLAN 后端（或其他网络后端）配置不当或版本缺陷导致。如果多个节点的flannel.1接口的link/ether字段值相同，即存在重复。如果多个节点的 Pod 子网 IP 最后 4 字节相同（例如子网配置冲突），则 MAC 地址会重复。：旧版本 Flannel 存在 MAC 生成逻辑缺陷。：无法升级 Flannel 或需自定义配置。macPrefix：Flannel 子网分配重叠导致 MAC 重复。

K8S的核心组件Etcd介绍

weixin_58029845的博客

09-25

4939

K8S、Etcd、云原生、AnyShare

calico换换成fannel报错error getting ClusterInformation: connection is unauthorized: Unauthorized

z284747的博客

03-30

995

从文档中可以看出，kubelet从默认目录读取配置文件，如果有多个配置文件，那么它会应用按字母顺序首先出现的配置文件中的 CNI 插件。在做测试时，想把集群的calico换成fannel，卸载calico并安装fannel后，coredns无法启动，报错。CNI的配置文件默认在/etc/cni/net.d/目录，进入目录查看，最后重启node节点，coredns pod恢复在正常。删除对应calico遗留文件。

coredns报错Failed create pod sandbox: rpc error

工具人的博客

08-13

6531

在做测试时，想把集群的calico换成fannel，卸载calico并安装fannel后，coredns无法启动，报错 network: error getting ClusterInformation: connection is unauthorized: Unauthorized, failed to clean up sandbox container 查看文档 https://kubernetes.io/docs/concepts/extend-kubernetes/compute-storag

error getting ClusterInformation: Get “https://10.96.0.1:443/apis/crd.projectcalico.org/v1/clusterin

abulen的博客

08-08

936

故事发生在我完美启动关机后再起不能,然后重装虚拟机再尝试步骤还是发现跑不起来..这个k8s是真难装了我热烈的🐎前置条件:你打开了魔法给containerd做代理,为了拉取镜像不报错,但是后面重启之后发现calico-controller-manger跟calico-node一直处于creating状态中,使用describe查看,报错入标题.

Kubernetes安装calico网络插件失败

weixin_45329799的博客

05-16

1575

操作系统这里使用的是Centos 7.9，建议使用新一点的Centos 7版本，否则后续安装calico网络插件，会报hostPath type check failed：/sys/fs/bpf is not a direcctory错误。非要使用旧的Centos 7版本，建议升级linux系统内核。接着昨天搭建k8s集群，安装calico插件，虚拟机一直卡。后面把虚拟机的屏保关了莫名其妙就成了。怀疑是内存开的不够，只给了2G。今天啥也没干成，不想排版了。啥也不说了，洗洗睡了。

创建provisioner时出现network: error getting ClusterInformation: connection is unauthorized: Unauthoriz

平庸

07-13

317

摘要：文章描述了Calico CNI插件在删除Pod沙箱时因权限不足无法访问ClusterInformation的问题。解决方法包括：1)检查Calico服务账户；2)创建ClusterRole授权get/list操作；3)将角色绑定到服务账户；4)重启网络插件。文中提供了详细的YAML配置示例和操作命令，帮助解决该授权问题。

kubernetes报错笔记（一） calico报错

最新发布

09-27

<think>我们正在讨论Kubernetes组件文件消失的问题。用户已经提供了几个引用，描述了Kubernetes的基本组件和工作流程。根据这些引用，我们可以推断出Kubernetes组件（如kube-apiserver）的服务文件可能会因为某些原因消失，从而导致服务无法启动（如之前的问题中提到的“Unit not found”错误）。用户现在的问题：查找k8s组件文件消失的原因及解决办法。根据之前的引用和讨论，我们可以总结如下：引用[1]提到Kubernetes集群中Pod的IP地址会随着Pod的销毁而消失，但这与组件文件消失关系不大。引用[2]和[3]强调了etcd作为键值存储的重要性，它存储了集群的所有重要信息。如果etcd数据丢失，整个集群的状态将会丢失，但这里讨论的是组件文件（如systemd服务文件）消失，而不是etcd数据。引用[4]描述了集群工作流程，其中apiserver将信息写入etcd，调度器、kubelet等组件通过etcd获取信息。同样，这与服务文件消失没有直接联系。因此，我们需要独立分析组件文件消失的原因：可能的原因： 1. 人为误删除：管理员在清理文件时不小心删除了服务文件。 2. 安装过程不完整：使用kubeadm或其他工具安装时，由于网络问题或权限问题导致部分文件没有正确生成。 3. 软件包管理问题：如果通过包管理器（如apt、yum）安装，可能由于包损坏或卸载操作导致文件被移除。 4. 磁盘问题：磁盘错误或损坏导致文件丢失。 5. 恶意软件：系统感染恶意软件，删除了关键文件。解决方法： 1. 重新生成服务文件：可以通过重新运行kubeadm或手动创建服务文件（如之前的回答中所述）。 2. 通过包管理器重新安装：如果是通过包管理器安装的，可以尝试重新安装对应的软件包。 3. 从备份恢复：如果有备份，可以从备份中恢复服务文件。 4. 检查磁盘和系统安全性：运行磁盘检查工具（如fsck）和恶意软件扫描。具体步骤： ### 步骤1：确认文件是否确实丢失使用命令检查服务文件是否存在： ```bash ls /usr/lib/systemd/system/kube-apiserver.service ls /etc/systemd/system/kube-apiserver.service ``` ### 步骤2：重新安装对应的软件包（如果通过包管理器安装）例如，在Ubuntu系统上： ```bash sudo apt install --reinstall kube-apiserver ``` 或者，如果你是通过kubeadm安装的，可以尝试重新生成服务文件： ```bash kubeadm init phase control-plane apiserver ``` ### 步骤3：手动恢复服务文件如果重新安装不可行，可以手动创建服务文件（如之前回答中提供的示例），并确保路径和参数正确。 ### 步骤4：检查系统日志查看系统日志，寻找文件删除的痕迹： ```bash sudo journalctl -u kubelet | grep -i "error" sudo grep -i "delete" /var/log/syslog ``` ### 步骤5：采取预防措施 - 定期备份重要的配置文件，包括systemd服务文件。 - 使用配置管理工具（如Ansible）来管理这些文件，以便在丢失时快速恢复。 - 确保使用稳定的安装方法，如kubeadm，并遵循官方文档。 ### 生成相关问题根据这个主题，我们可以提出以下相关问题： §§相关问题§§ 1. 如何备份和恢复Kubernetes集群的关键配置文件？ 2. Kubernetes控制平面组件的服务文件通常位于哪些路径？ 3. 使用kubeadm安装Kubernetes时，如何重新生成控制平面组件的服务文件？ 4. 如何防止Kubernetes系统关键文件被意外删除？ </think>### Kubernetes 组件文件消失的原因及解决方法 #### 🔍 文件消失的常见原因 1. **人为误操作删除** - 管理员清理文件时误删关键组件（如 `rm -rf /usr/lib/systemd/system/kube-*.service`）[^1] - 错误执行 `kubeadm reset` 导致系统级文件被清除[^2] 2. **磁盘空间不足导致写入失败** ```bash $ df -h /usr/lib/systemd/system/ # 检查磁盘使用率 ``` 当磁盘使用率 >95% 时，新安装的组件文件可能无法完整写入 3. **安装过程中断** - 网络中断导致 `kubeadm init` 下载不完整 - 系统重启打断组件安装流程 4. **软件包冲突** 多版本 Kubernetes 并存时（如 `kubeadm`/`kubectl` 版本不一致），安装覆盖旧文件 5. **恶意程序破坏** 病毒或勒索软件删除系统文件（需检查 `/var/log/audit/audit.log`） #### 🛠️ 解决方法 ##### ✅ 方法1：重新生成服务文件（推荐） ```bash # 使用 kubeadm 重新生成控制平面组件 $ sudo kubeadm init phase control-plane all \ --config /etc/kubernetes/kubeadm-config.yaml # 重启服务 $ sudo systemctl daemon-reload $ sudo systemctl restart kube-apiserver kube-controller-manager kube-scheduler ``` > **原理**：`kubeadm init phase` 会重建丢失的 systemd 单元文件和配置文件[^2] ##### ✅ 方法2：手动恢复关键文件 1. **恢复 etcd 数据**（核心存储）： ```bash # 从备份恢复 etcd 快照 $ ETCDCTL_API=3 etcdctl snapshot restore backup.db \ --data-dir=/var/lib/etcd ``` 2. **重建服务文件**： ```bash # 示例：kube-apiserver.service 模板 $ sudo tee /usr/lib/systemd/system/kube-apiserver.service <<'EOF' [Unit] Description=Kubernetes API Server After=etcd.service [Service] ExecStart=/usr/local/bin/kube-apiserver \ --etcd-servers=https://127.0.0.1:2379 \ --kubelet-client-certificate=/etc/kubernetes/pki/apiserver-kubelet-client.crt \ --tls-private-key-file=/etc/kubernetes/pki/apiserver.key Restart=always [Install] WantedBy=multi-user.target EOF ``` ##### ✅ 方法3：完全重装控制平面 ```bash # 1. 清理旧环境 $ sudo kubeadm reset --force # 2. 重新初始化 $ sudo kubeadm init # 3. 恢复网络组件 $ kubectl apply -f https://docs.projectcalico.org/manifests/calico.yaml ``` #### 🛡️ 预防措施 1. **定期备份关键文件**： ```bash # 备份 systemd 单元文件 $ sudo tar czvf k8s-service-backup-$(date +%F).tar.gz \ /usr/lib/systemd/system/kube-*.service \ /etc/kubernetes/manifests/ # 备份 etcd 数据（每日定时任务） $ ETCDCTL_API=3 etcdctl snapshot save /backup/etcd-$(date +%F).db ``` 2. **启用文件审计**： ```bash # 监控关键目录 $ sudo auditctl -w /usr/lib/systemd/system/kube* -p wa -k k8s_services ``` 3. **使用配置管理工具** 通过 Ansible/Puppet 管理 Kubernetes 配置文件，确保版本一致性： ```yaml # Ansible 示例：确保服务文件存在 - name: Ensure kube-apiserver service copy: src: templates/kube-apiserver.service.j2 dest: /usr/lib/systemd/system/kube-apiserver.service owner: root group: root mode: 0644 ``` #### 🔍 故障排查流程图 ```mermaid graph TD A[组件文件消失] --> B{磁盘空间是否充足?} B -->|Yes| C[检查审计日志 /var/log/audit/audit.log] B -->|No| D[清理磁盘或扩容] C --> E{是否有删除记录?} E -->|Yes| F[定位执行者/进程ID] E -->|No| G[检查系统崩溃日志 journalctl -k] G --> H[排查硬件故障] F --> I[恢复备份或重新初始化] ```