当收到prometheus发送的告警邮件时,发现是k8s的两个节点down掉了,我的第一反应是服务器挂了?所以我第一时间就远程到这两个节点上,发现可以正常ssh连接到两台服务器,所以服务器本身是正常的。所以我继续查看k8s集群节点状态。

记一次二进制部署kubernetes集群工作节点NotReady处理过程_NotReady

可以看到有两个工作节点状态为NotReady。我的第一想法是calico的问题。所以我进一步查看kube-system名称空间中Pod的状态。

记一次二进制部署kubernetes集群工作节点NotReady处理过程_证书签名请求_02

发现calico-kube-controllers和calico-node的状态异常(图中为后截图,图中的pod状态不是当时的错误状态),所以我继续看pod的状态。

发现calico-kube-con