报障:
今日上午,值班同学发现airflow无法使用。查看时其部署的Node节点NotReady了。
分析:
马上查看K8S集群节点的状态,发现这个节点已经是NotReady状态了。第一反应就是ping下节点看是否宕机了?ping正常,于是登录到该节点查看kubelet状态。发现kubelet报runtime不可用,查看containerd的状态,一直在不断的重启,而且启动不成功。为了尽快恢复业务,决定先将containerd的数据目录清空后重新拉起。于是删除containerd数据目录下的文件夹:
# ls -lrth /xpu-k8s-data/containerd/total 0drwx------ 2 root root 6 Apr 28 10:54 io.containerd.snapshotter.v1.btrfsdrwx------ 3 root root 31 Apr 28 10:54 io.containerd.snapshotter.v1.aufsdrwx------ 3 root root 31 Apr 28 10:54 io.containerd.snapshotter.v1.nativedrwx--x--x 2 root root 29 Apr 28 10:54 io.containerd.metadata.v1.boltdrwx--x--x 2 root root 6 Apr 28 10:54 io.containerd.runtime.v1.linuxdrwxr-xr-x 4 root root 45 Apr 28 10:54 io.containerd.content.v1.contentdrwx------ 3 root root 54 Apr 28 10:54 io.containerd.snapshotter.v1.overlayfsdrwx--x--x 3 root root 28 Apr 28 10:54 io.containerd.runtime.v2.taskdrwxr-x