报错集-----Kubernetes（K8S）中node节点网卡莫名消失解决办法

最新推荐文章于 2025-09-15 16:16:26 发布

原创

最新推荐文章于 2025-09-15 16:16:26 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#k8s #云计算 #kubernetes

本文讲述了在重启挂起的Node.js节点后，遇到ens33网卡丢失的问题，通过关闭NetworkManager服务并重启网络配置，成功解决了问题，恢复了网卡。

报错现象：
当将挂起的node节点重新启动时，发现网卡莫名奇妙的消失了，出现如下报错：
使用ifconfig找不到ens33网卡
在这里插入图片描述
重启网卡发现报错，检查网卡状态发现failed：

解决办法：

service NetworkManager stop       #关闭 NetworkManger 服务
chkconfig NetworkManager off      #永久关闭 Manager网卡

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

清风~

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

keil5编译时提示：keil5 target not created...如何解决？

**My Coding Family**

09-13

1万+

🏆本文收录于专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家！持续更新中，up！up！up！！

参与评论您还未登录，请先登录后发表或查看评论

K8S部署二进制集群过程中calico一直报错，如何解决？？

**My Coding Family**

11-22

1162

BGP 配置或连接异常。丢失。节点间网络不通。Calico 与 Kubernetes 配置不兼容。按照以上步骤排查和修复，可以解决大多数 Calico 的 BIRD 问题。希望如上措施及解决方案能够帮到有需要的你。PS：如若遇到采纳如下方案还是未解决的同学，希望不要抱怨&&急躁，毕竟影响因素众多，我写出来也是希望能够尽最大努力帮助到同类似问题的小伙伴，即把你未解决或者产生新Bug黏贴在评论区，我们大家一起来努力，一起帮你看看，可以不咯。

关于一次自建安装包安装的k8s环境，断电重启后，网络环境失效问题

hao931126的博客

08-02

466

关于一次自建安装包安装的k8s环境，断电重启后，网络环境失效问题目的现象首先，部署的子系统无法连接到主节点。看了下iptables,发现除了主节点，其他两个从节点的calico出现问题。看了下ifconfig，发现calico的虚拟网卡出现了问题，没有被创建重新安装calico，calico控制器被安装到从节点2，但是一直无法启动想要通过kubectl 进入到calico控制器的pod中观察现象，结果报错连接不上。突然寻思是不是防火墙的问题，关闭防火墙，果然解决了问题。 ...

NetworkManager组件导致的flannel网络异常排查

最新发布

V 云原生实践课堂

09-15

1100

问题背景：线上测试环境，发现一个node节点的pod到其他节点的pod网络均不通，检查发现改节点flannel网络异常（k8s使用的为flannel网络插件）。继续排查该节点，发现根本原因为系统特定版本的NetworkManager组件导致的。问题复现： 1.启动NetworkManager服务，发现该节点flannel.1的IP立马消失，同时flannel.1的链路...

虚拟机挂起/重启后导致K8s网络不通或服务启动后主节点无法访问问题

猫与少年

05-31

3441

虚拟机挂起/重启后导致K8s网络不通或服务启动后主节点无法访问问题

k8s基于kubeadm安装（最新，解决虚拟机环境下重启或挂起导致的问题）

分享技术，记录问题，努力学习

08-06

1957

k8s基于kubeadm安装该文章基于mac系统 + vmware虚拟机（由于需要多台机且配置要求不低，所以决定省钱用虚拟环境） 1虚拟机安装（已经安装或不想看着内容直接目录跳到k8s安装） 1.首先下载centos的镜像，我这里选择的centos7版本阿里云centos镜像下载地址 2.安装vmware，这个去官网下载就好了免费30天，30天之后仁者见仁智者见智 3.Windows的用户可以去找win的配置教程，mac的用户可以继续看启动vmware之后，点击右上角小图标，创建一个虚拟机，选择从镜

k8s快照后 ip消失（解决方法）

weixin_46941625的博客

08-13

610

起因是这样的二进制部署完k8s的基础环境后拍了一个快照恢复原先的快照后发现连不上虚拟机（ip没了；原因分析，可能是我拍快照的时候网卡配置文件损坏）于是 reboot重启虚拟机重启网卡再次查看发现问题解决总结确保拍快照前网卡配置没错的前提下reboot重启虚拟机，再重启网卡删除旧快照给当前环境做个快照即可 ...

K8s Scheduler 在调度 pod 过程中遗漏部分节点的问题排查

吉小白的博客

05-13

347

问题现象在TKE控制台上新建版本为v1.18.4（详细版本号 < v1.18.4-tke.5）的独立集群，其中，集群的节点信息如下：有3个master node和1个worker node，并且worker 和 master在不同的可用区。 node 角色 label信息 ss-stg-ma-01 master label[failure-domain.beta.kubernetes.io/region=sh,failure-domain.beta.kubernetes.io/zone

NSX-K8S-Rapid-Deply-v1.3.pdf

07-26

Pod作为K8S中的最小部署单元，在网络层面需要关注的是如何通过外部访问到K8S平台内部的服务。这通常通过服务地址来完成负载均衡，服务会将流量负载均衡到相应的Pods上。Pods的IP地址块由NSX-T提供，Pods对外访问所需...

k8s-node节点未找到flannel网络

BorisCao的博客

06-17

3503

k8s-node节点的flannel的IP地址不正确问题描述：问题分析1.检查node节点的cni和flannel网卡地址2.检查master节点的flannel服务如何重置flannel网络(1)删除node节点（master）(2) node 节点删除cni和flannel网卡(node)(3)加入节点(node) 问题描述：现有测试环境有3台k8s服务器，现在新添加两台服务器，发现新加的服务器flannel网卡没有生成问题分析 1.检查node节点的cni和flannel网卡地址操作命名 ifc

【Kubernetes k8s】（两万字超详细）Ubuntu-22.04搭建 k8s-1.30.1集群，开启Dashboard-2.7.0、部署ingress-nginx-1.10.1

m0_74823239的博客

01-17

846

kubeadm是自动引导整个集群的工具，本质上k8s就是一些容器服务相互配合完成管理集群的任务，如果你知道具体安装哪些容器那么可以不用这个。kubalet是各个节点的总管，它上面都管，管理Pod、资源、日志、节点健康状态等等，它不是一个容器，是一个本地软件，所以必须得安装kubectl是命令行工具，给我们敲命令与k8s交互用的，必须得安装大白话就是：在此之前我们都是直接访问service，让service负载均衡到Pod上，优点是直接，缺点是随着service的增多端口会越来越多，不好记。于是我们在。

一起误删cni0虚拟网卡引发的k8s事故

Huangjiazhen711的博客

09-20

2651

在一台只有两个pod的节点上查看虚拟网卡的情况，发现在node主机上可以看到两个veth前缀的虚拟网卡，它们的另一端在pod中，并且pod的netns也可以通过show命令看到。由于生产K8S集群需要踢出一个已存在的节点后重新加入，在清理node节点环境的过程中，误将需要在node节点上执行的删除cni0虚拟网卡的操作在master节点上执行了。从通信过程可以知道，pod的网络需要连接到cni0网桥，而cni0和flannel.1网桥之间是没有连接的，通过node节点的路由表来实现转发通信的。

重启后K8S没有启动问题的解决

oasisss的博客

01-16

3034

主机重启后K8S没有启动

Kubernetes之网络排查详细文

潇潇雨歇

01-13

2725

4.大数据包丢包：主要现象为基础网络和端口均可以连通，小数据包收发无异常，大数据包丢包。可能原因为总结一下，Pod 最常见的网络故障有:在了解到常见的网络异常后，在排查时就需要使用到一些网络工具才可以很有效的定位到网络故障原因，下面会介绍一些网络排查工具。语法参数说明 -i (interface) -w (file) 第一个n表示将地址解析为数字格式而不是主机名,第二个N表示将端口解析为数字格式而不是服务名 -n 不显示IP地址 -X hex and ASCll

k8s集群部署+疑难问题解答

ghostyusheng 's blog

12-17

1958

参考资料: https://tonybai.com/2019/10/21/how-to-deploy-a-kubernetes-cluster-with-ubuntu-server-18-04/ 安装(ubuntu举例) (1) sudo apt-get install docker.io (2) sudo usermod -aG docker $USER (3) sudo systemctl s...

部署Kubernetes(k8s)时，为什么要关闭swap、selinux、firewall 防火墙？

wangxuelei036的博客

11-16

6156

部署Kubernetes(k8s)时，为什么要关闭swap、selinux、firewall 防火墙？

安装Kubernetes为什么要关闭防火墙？

2023年最新地推相关信息

03-02

3609

部署文档上都有说明原因。关于防火墙的原因（nftables后端兼容性问题，产生重复的防火墙规则） Theiptablestooling can act as a compatibility layer, behaving like iptables but actually configuring nftables. This nftables backend is not compatible with the current kubeadm packages: it causes duplica

k8s安装插件出现dial tcp 10.96.0.1:443: i/o timeout问题解析

热门推荐

qq_44847649的博客

03-15

2万+

k8s安装插件出现dial tcp 10.96.0.1:443: i/o timeout问题解析问题： [root@k8s-master ~]# kubectl logs kubernetes-dashboard-658485d5c7-4c2sg -n kubernetes-dashboard 2022/02/23 00:58:28 Starting overwatch 2022/02/23 00:58:28 Using namespace: kubernetes-dashboard 2022/02/23

kubernetes运维---node从集群消失(bootstrap-kubelet.kubeconfig)

qq_34391821的博客

05-10

2657

一,背景在执行kubectl get node时发现节点直接为空二,排查过程 (1)查看节点是否能ping通 (2）确定节点是正常运行的,登录192.168.31.81节点查看kubelet信息 journalctl -xe -u kubelet -f 查看到报Unable to register node "k8s-master01" with API server: nodes is forbidden: User "system:anonymous" cannot creat.

flannel使用host-gw作为k8s cni的pod互通抓包怎么使用

08-01

<think>我们正在处理一个关于在Kubernetes Flannel host-gw模式下进行抓包分析的问题。根据引用[1]和[2]的内容，我们知道host-gw模式使用路由表来实现Pod之间的通信，每个节点上的路由表将其他节点的Pod CIDR指向对应节点的IP地址。用户的问题是：在Kubernetes中使用Flannel作为CNI并配置为host-gw模式时，如何对Pod之间的通信进行抓包分析？思路： 1. 在host-gw模式下，节点之间的通信是通过节点上的路由表直接路由的，没有隧道封装（如VXLAN或IPIP），所以抓包时看到的是原始IP包。 2. 抓包的位置很关键，我们需要根据通信场景选择抓包点： a. 同节点内的Pod通信：通过cni0网桥，在cni0接口或Pod的veth接口上抓包。 b. 跨节点Pod通信：在源节点和目的节点的出口网卡（如eth0）上抓包，因为数据包是通过节点间的网络直接传输的。 3. 由于Flannel host-gw模式下没有隧道封装，所以抓包时看到的是原始Pod IP之间的通信。具体步骤：场景1：同节点内Pod到Pod的通信 - 通信路径：Pod1 -> cni0 -> Pod2 - 抓包点： 1. 在Pod1的eth0（即veth的一端）上抓包 2. 在Pod2的eth0上抓包 3. 在cni0网桥上抓包（可以同时看到两个Pod的流量）场景2：跨节点Pod到Pod的通信 - 通信路径：Pod1（节点A） -> 节点A的eth0 -> 节点B的eth0 -> Pod2（节点B） - 抓包点： 1. 在节点A的eth0上抓包（源IP是Pod1的IP，目的IP是Pod2的IP） 2. 在节点B的eth0上抓包（同样可以看到Pod1到Pod2的包） 3. 注意：在节点B上，数据包会通过路由表转发到cni0，然后到达Pod2，所以也可以在节点B的cni0上抓包。另外，根据引用[2]中的内容，我们还可以分析Node到其他Node上的Pod、Pod访问Service等场景。抓包工具选择： - 在节点上使用tcpdump - 在Pod内也可以使用tcpdump（如果Pod内有权限和工具）具体命令示例： 1. 在节点上抓取特定接口的包（以eth0为例）： ```bash tcpdump -i eth0 -nn 'net 10.244.0.0/16' -w host-gw.pcap ``` 这里使用`net 10.244.0.0/16`来过滤Pod的IP网段（假设Flannel的Pod网段是10.244.0.0/16）。 2. 在cni0网桥上抓包： ```bash tcpdump -i cni0 -nn -w cni0.pcap ``` 3. 在Pod内抓包（需要进入Pod）： ```bash kubectl exec -it <pod-name> -- tcpdump -i eth0 -nn -w pod.pcap ``` 注意：Pod内可能没有tcpdump，需要提前安装。 4. 抓取特定Pod的流量（比如源IP或目的IP是某个Pod）： ```bash tcpdump -i any -nn 'host 10.244.1.10' ``` 5. 分析Service流量：由于host-gw模式下，Service的ClusterIP是通过kube-proxy的iptables或ipvs规则转发的，所以抓包时需要注意： - 当Pod访问Service时，在Pod的网络栈上看到的是Service的ClusterIP，但经过节点上的iptables规则后，会被DNAT成Pod的IP。 - 在源Pod所在节点的出口网卡上抓包，将看到目标IP是Service ClusterIP的包（但实际在节点间传输时已经被转换成具体Pod IP，所以抓包看到的是Pod IP）。 - 为了抓取Service的流量，可以在源Pod所在节点上抓取cni0接口的包（此时还未做DNAT，可以看到ClusterIP），或者在目的Pod所在节点上抓取cni0接口的包（此时已经做了DNAT，看到的是Pod IP）。注意：在host-gw模式下，跨节点通信时，数据包不会经过隧道封装，所以抓包看到的就是原始Pod IP包。总结抓包步骤：步骤1：确定要分析的通信场景（同节点Pod通信、跨节点Pod通信、Pod访问Service等）步骤2：根据通信路径选择抓包点（源Pod节点、目的Pod节点、中间路由设备如果有权限）步骤3：使用tcpdump在选定的接口上抓包，并保存为pcap文件步骤4：将pcap文件下载到本地，使用Wireshark进行详细分析另外，由于host-gw模式依赖路由表，在抓包前可以检查相关节点的路由表： ```bash ip route ``` 确保有到其他节点Pod CIDR的路由，且下一跳是对应节点的IP。引用[2]中详细分析了不同场景下的流量路径，我们可以参考这些场景进行抓包。相关问题： 1. 在Flannel host-gw模式下，如何验证节点之间的路由是否正确？ 2. 当Pod访问Service时，在哪些位置可以抓取到ClusterIP？ 3. 如何分析跨节点Pod通信中的网络延迟问题？ 4. 在Kubernetes中，如何在不进入Pod的情况下抓取Pod的流量？ 5. Flannel host-gw模式与VXLAN模式在抓包分析上有何不同？注意：在回答中，我们引用了用户提供的引用[1]和[2]，所以在末尾添加引用标识。</think>在 Kubernetes 中使用 Flannel 的 host-gw 模式进行抓包分析时，需要根据不同的通信场景选择抓包点。以下是详细的抓包方法和分析步骤： ### 🔧 一、抓包位置选择在 host-gw 模式下，不同通信场景需在不同网络接口抓包： | **通信场景** | **抓包接口** | **关键特征** | |------------------------------|---------------------|--------------------------------------| | 同节点 Pod 间通信 | `cni0` 或 Pod 的 veth 接口 | 直接通过网桥转发，不经过物理网卡 | | 跨节点 Pod 间通信 | 节点物理网卡 (如 `eth0`) | 原始 IP 包，无隧道封装[^1] | | Pod 访问 Service ClusterIP | `cni0` 接口 | 可看到 DNAT/SNAT 转换过程 | | 节点访问 Service ClusterIP | `cni0` + `eth0` | 涉及 kube-proxy 规则处理 | | NodePort 服务外部访问 | `eth0` + `cni0` | 入口流量和 backend 选择过程 | ### 📡 二、关键抓包命令示例 #### 1. 跨节点 Pod 通信抓包（核心场景） ```bash # 在源节点抓包（查看出站流量） tcpdump -i eth0 -nn 'src net 10.244.1.0/24 and dst net 10.244.2.0/24' -w pod-cross-node.pcap # 在目标节点抓包（查看入站流量） tcpdump -i eth0 -nn 'src net 10.244.1.0/24 and dst net 10.244.2.0/24' -w pod-inbound.pcap ``` **分析要点**： - 确认路由跳转：数据包应直接发送到目标节点 IP（非隧道封装）[^1] - 检查 TTL 变化：正常跨节点通信 TTL 会减 1 - 验证 MAC 地址：目标 MAC 应为下一跳节点的 MAC #### 2. 同节点 Pod 通信抓包 ```bash # 在 cni0 网桥抓包 tcpdump -i cni0 -nn 'host 10.244.1.10 and host 10.244.1.20' -w same-node.pcap ``` **分析要点**： - 确认无物理网卡流量 - 检查 ARP 请求是否在本地解析 #### 3. Service 流量抓包分析 ```bash # 查看 ClusterIP DNAT 过程（在源 Pod 所在节点） tcpdump -i cni0 -nn 'port 80 and (host 10.244.1.10 or host 10.96.0.10)' -w service-dnat.pcap # 查看 NodePort 流量（在 backend 节点） tcpdump -i eth0 -nn 'tcp port 30080' -w nodeport-inbound.pcap ``` ### 🔍 三、路由表验证（host-gw 核心）抓包前务必检查路由表，确认 host-gw 路由规则生效： ```bash # 查看节点路由表 ip route show | grep '10.244' # 预期输出示例： 10.244.1.0/24 via 192.168.0.101 dev eth0 10.244.2.0/24 via 192.168.0.102 dev eth0 ``` 每个其他节点的 Pod 子网都应有对应的 `via <节点IP>` 路由[^1] ### 📊 四、典型问题分析 #### 1. 跨节点通信失败 - **抓包现象**：源节点 `eth0` 有出包，目标节点 `eth0` 无入包 - **可能原因**： - 节点间防火墙阻断 - 路由配置错误（`ip route` 验证） - ARP 解析失败（检查 `arp -an`） #### 2. Service 访问异常 - **抓包现象**：ClusterIP 请求未 DNAT - **检查项目**： ```bash # 查看 kube-proxy 规则 iptables -t nat -L KUBE-SERVICES -v -n ``` ### ⚠️ 五、注意事项 1. **权限要求**：节点抓包需 `sudo` 权限 2. **抓包影响**：生产环境使用 `-c 100` 限制包数量 3. **时间同步**：跨节点抓包前用 `ntpdate` 同步时间 4. **封装检查**：host-gw 模式**不应**出现 VXLAN 或 IPIP 封装 5. **路由跟踪**：跨节点通信可用 `traceroute -n <目标PodIP>` 验证路径 ### 💻 六、Wireshark 分析技巧 1. 使用 `ip.dst == 10.244.0.0/16` 过滤 Pod 流量 2. 通过 **Statistics > Conversations** 分析通信矩阵 3. 使用 **TCP Stream** 重组 HTTP 等应用层协议 4. 检查 **Expert Info** 识别重传/乱序问题 ```mermaid graph LR A[抓包需求] --> B{通信类型} B -->|Pod to Pod| C{同节点?} C -->|是| D[cni0接口] C -->|否| E[eth0接口] B -->|Service访问| F[cni0接口] B -->|NodePort| G[eth0接口] D --> H[分析网桥转发] E --> I[验证路由跳转] F --> J[跟踪DNAT转换] G --> K[检查负载均衡] ``` ### 📚 相关问题 1. 如何区分 Flannel host-gw 模式和 VXLAN 模式的数据包特征？ 2. 当跨节点 Pod 通信失败时，如何结合路由表和抓包结果进行诊断？ 3. 在 Service 访问场景中，如何通过抓包验证 kube-proxy 的 iptables 规则是否生效？ 4. 为什么 host-gw 模式在公有云环境中可能受限？如何解决？ 5. 如何捕获和分析 Kubernetes 中的 DNS 查询流量？ [^1]: Flannel host-gw 模式路由机制 [^2]: Kubernetes 网络流量分析实践