K8s常见问题分析&解决（未分类问题一）

最新推荐文章于 2025-09-18 10:22:38 发布

原创最新推荐文章于 2025-09-18 10:22:38 发布 · 5.8k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#服务器 #运维

k8s问题集专栏收录该内容

5 篇文章

订阅专栏

本文汇总了Kubernetes中常见的16个问题及其解决方法，包括Pod状态异常、集群资源管理、命名空间删除、网络连接失败等，提供了解题思路、原因分析及具体步骤。

1: Pod始终处于pending状态

详细描述：
    Pod始终处于pending状态
解题思路：
    如果pod保持在pending的状态，意味着无法被正常的调度到节点上，由于系统的某些资源无法满足Pod的运行需求
原因分析：
    系统没有足够的资源或者用户指定了hostPort；通过hostPort用户能够将服务暴露到指定的主机端口上，会限制pod被调度到可运行节点上
解决步骤：
    系统没有足够资源的情况，需要清理一些不需要的Pod，调整它们所需的资源量或者向集群中新增加节点

2: Pod始终处于Waiting状态

详细描述：
    Pod始终处于Waiting状态
解题思路：
    Pod处于Waiting的状态，说明已经被调度到一个工作节点， 却无法在那个节点上运行
原因分析：
    可以使用kubectl describe 查看含有更详细的错误信息。一般导致Pod处于waiting的原因为镜像无法下载
解决步骤：
    查看镜像下载情况

3: Pod处于CrashLoopBackOff状态

详细描述：
    Pod处于CrashLoopBackOff状态
解题思路：
    无
原因分析：
    CrashLoopBackOff状态说明容器已经启动，但是又异常导致退出，这个时候Pod的restartCounts通常大于0；
    容器进程退出
    健康检查失败退出
    OOMKilled
解决步骤：
    无

4: Pod一直崩溃或者运行不正常

详细描述：
    Pod一直崩溃或者运行不正常
解题思路：
    可以使用kubectl describe以及kubectl logs排查问题，这个问题存在情况比较复杂
原因分析：
    可能的情况： 健康检测失败，OOM情况，或者容器运行生命周期结束
解决步骤：
    无

5:集群雪崩，kubelet预留资源不足

详细描述：
    集群雪崩，kubelet预留资源不足
解题思路：
    无
原因分析：
    原因分析参见网上blog：https://my.oschina.net/jxcdwangtao/blog/1629059
解决步骤：
    为kubelet等进程预留相应的资源，具体操作参加上面的网址

6: nfs挂载错误wrong fs type， bad option， bad superblock

详细描述：
    nfs挂载错误wrong fs type， bad option， bad superblock
解题思路：
    无
原因分析：
    根据错误提示， 查看/sbin/mount.<type>文件，果然发现没有/sbin/mount.nfs文件
解决步骤：
    安装nfs-utils 即可

7:kube-apiserver accept4: too many open files

详细描述：
    kube-apiserver accept4: too many open files
    http: Accept error: accept tcp 0.0.0.0:6443: accept4: too many open files; retrying in 1s
解题思路：
    无
原因分析：
    查看apiserver 进程， lsof -p $pid, 发现占有65540， 查看cat /proc/$pid/limits发现限制在65536， 查看占用的一大堆10250的某个kubelet，发现如下“device is busy”的错误
解决步骤：
    目前解决方案
    kubectl delete --grace-period=0 --force
    https://github.com/kubernetes/kubernetes/issues/51835

8: kubernetes pod 无法删除，Docker： Device is busy

详细描述：
    kubernetes pod 无法删除，Docker： Device is busy
解题思路：
    登录对应的Node节点，采用docker ps -a 查看对应的docker容器状态，发现容器的状态处于Dead状态，同样使用docker rm <container id>, 提示Device is busy。
原因分析：
    出现Docker： Device is busy 已经停止的docker容器无法删除，可能的原因存在systemd unit file 中带有 PrivateTmp=true 的 serivce，例如ntpd.service，nginx.service，当时在使用docker comose的时候是因为碰巧那台机器上安装了nginx。nginx的systemd文件中有下面的配置：

    [Service]
    PrivateTmp=true 
    这会导致nginx运行在私有挂载命名空间，而docker容器在销毁时需要卸载挂载的磁盘信息，此时出现冲突引起销毁docker容器失败。 当把引起这个问题的nginx关闭后，再使用docker rm <container id>可以将Dead的容器删除，但是当重新启动nginx容器后，后边可能还会出现这个问题。 这个是CentOS/RedHat 3.10.0内核NameSpace的bug；正常由于某个systemd服务PrivateTmp=true引起的
解决步骤：
    网络上出现的Pod无法删除的解决方案：
    https://blog.terminus.io/docker-device-is-busy/
    Docker 故障（device or resource busy）
常见的解决思路：
    首先尝试使用docker rm <containerid>，一般会得到如下的错误：Error response from daemon: driver "overlay" failed to remove root filesystem for cb48a9914c6d9015eef2519f70bed648b070345e5acd271de0a03cb931d78a69: remove     /var/lib/docker/overlay/cd38b6e94e55a36b43cefe9cb3a74050fdc485e233c72a1fa125277d6b3f630d/merged: device or resource busy
    查看对应的挂载信息：
    grep docker /proc/*/mountinfo | grep     /var/lib/docker/overlay/cd38b6e94e55a36b43cefe9cb3a74050fdc485e233c72a1fa125277d6b3f630d/merged
    /proc/168793/mountinfo:3967 3441 0:639 /     /var/lib/docker/overlay/cd38b6e94e55a36b43cefe9cb3a74050fdc485e233c72a1fa125277d6b3f630d/merged rw,relatime shared:415 - overlay overlay rw,lowerdir=/var/lib/docker/overlay/125dad94af82485b8ea6cd3808df431f7180033d278bdadcbc21d7d7054678a4/root,upperdir=/var/lib/docker/overlay/cd38b6e94e55a36b43cefe9cb3a74050fdc485e233c72a1fa125277d6b3f630d/upper,workdir=/var/lib/docker/overlay/cd38b6e94e55a36b43cefe9cb3a74050fdc485e233c72a1fa125277d6b3f630d/work
    从上面的输出结果可以看出当前的进程168793，查看这个进程：
    ps -ef | grep 168793
    ntp      168793      1  0 Feb04 ?        00:00:00 /usr/sbin/ntpd -u ntp:ntp -g
    这里经确认这个进程是ntpd，重启ntpd后再次尝试使用docke rm <containerid>删除容器，一般情况下是可以删除的。
    当然上面在查看对应的挂载信息时，可以能会列出很多信息，这个时候挨个去找出冲突的进程太繁琐了，可以强制                umount无法删除的目录：
    umount -f             /var/lib/docker/overlay/cd38b6e94e55a36b43cefe9cb3a74050fdc485e233c72a1fa125277d6b3f630d/merged
    之后再重新尝试删除容器，重复上边的过程。
    当处于Dead状态的容器清理干净后，使用kubectl将处于Terminating的Pod删除掉即可

9: k8s无法删除namespace 提示Terminating

详细描述：
    k8s无法删除namespace 提示Terminating
解题思路：
    无
原因分析：
    无
解决步骤：
    kubectl get ns <namespace-name> -o json > ns-delete.json
    删除文件中spec.finalizers
    "spec":{},
    备注：在执行命令前，要先克隆一个新的会话，执行kubectl proxy --port=8081
    执行：
    curl -k -H "Content-Type: application/json" -X PUT --data-binary @ns-delete.json http://127.0.0.1:8081/api/v1/namespaces/<namespace-name>/finalize

10:Kubernetes: No Route to Host

详细描述：
    Kubernetes: No Route to Host
    Error getting server version: Get https://xx.xx.xx.xx:443/version?timeout=32s: dial tcp xx.xx.xx.xx:443: connect: no route to host
解题思路：
    无
原因分析：
    无
解决步骤：
    iptables -F

11: kubeadm kube-controller-manager does not have ceph rbd binary anymore

详细描述：
    kubeadm kube-controller-manager does not have ceph rbd binary anymore 
    Error: "failed to create rbd image: executable file not found in $PATH, command     output: "
解题思路：
    无
原因分析：
    无
解决步骤：
    解决参照文档：https://github.com/kubernetes/kubernetes/issues/56990
    yum install -y ceph-common

12: helm报这个错误 Helm: Error: no available release name found

详细描述：
    helm报这个错误 Helm: Error: no available release name found
解题思路：
    无
原因分析：
    因为tiller没有正确的角色权限
    解决步骤：
    kubectl create serviceaccount --namespace kube-system tiller
    kubectl create clusterrolebinding tiller-cluster-rule --clusterrole=cluster-admin --serviceaccount=kube-system:tiller
    kubectl patch deploy --namespace kube-system tiller-deploy -p '{"spec":{"template":{"spec":{"serviceAccount":"tiller"}}}}'

13: K8s中 pv 无法删除问题

详细描述：
    K8s中 pv 无法删除问题
    Pv始终处于“Terminating”状态，而且delete不掉
解题思路：
    无
原因分析：
    无
解决步骤：
    删除k8s中的记录   kubectl patch pv xxx -p '{"metadata":{"finalizers":null}}'

14: Error from server: Get https://master-node:10250/containerLogs/default/csi-hostpathplugin-0/node-driver-registrar: dial tcp: lookup master-node on 114.114.114.114:53: no such host

详细描述：
    Error from server: Get https://master-node:10250/containerLogs/default/csi-    hostpathplugin-0/node-driver-registrar: dial tcp: lookup master-node on 114.114.114.114:53: no such host
解题思路：
    无
原因分析：
    无
解决步骤：
    在/etc/hosts 添加192.168.x.x master-node

15: calico/node is not ready: BIRD is not ready：BGP not established

详细描述：
    calico/node is not ready: BIRD is not ready：BGP not established
解题思路：
    无
原因分析：
    主要原因是calico，没有识别到网卡
解决步骤：
    modified calico.yaml file to include:
    - name: IP_AUTODETECTION_METHOD
    value: "interface=ens.*"

16: 无法删除image报rbd: error: image still has watchers解决方法

详细描述：
    无法删除image报rbd: error: image still has watchers解决方法
解题思路：
    无
原因分析：
    无
解决步骤：
    参照：https://www.cnblogs.com/sisimi/p/7776633.html