kube-admin和kube-scheduler总是莫名的重启，集群状态还ok，没有问题

最新推荐文章于 2024-10-21 15:33:12 发布

原创

最新推荐文章于 2024-10-21 15:33:12 发布 · 3.6k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#linux #docker #centos

这篇博客记录了在Kubernetes集群中遇到kube-controller-manager健康检查失败的问题，通过查看`kubectl get po -n kube-system`和`kubectl describe pod kube-controller-manager -n kube-system`命令的输出，发现liveness probe失败。博主修改了kube-controller-manager和kube-scheduler的配置文件，添加了`address=127.0.0.1`参数，并删除并重新创建了Pod，最终解决了问题。虽然日志中仍有警告，但目前系统运行正常，博主将继续观察是否会再次出现重启情况。

看截图信息

# kubectl  get po -n kube-system
NAME                                        READY   STATUS    RESTARTS       AGE
coredns-6d8c4cb4d-8xghq                     1/1     Running   0              38m
coredns-6d8c4cb4d-q65vq                     1/1     Running   0              38m
etcd-host-10-19-83-151                      1/1     Running   4              23h
kube-apiserver-master                       1/1     Running   1              23h
kube-controller-manager-master              1/1     Running   31 (25m ago)   23h
kube-flannel-ds-amd64-2pwps                 1/1     Running   0              61m
kube-flannel-ds-amd64-svfg6                 1/1     Running   0              61m
kube-flannel-ds-amd64-xmppt                 1/1     Running   1              61m
kube-proxy-d4bb2                            1/1     Running   0              23h
kube-proxy-k2skv                            1/1     Running   1              23h
kube-proxy-x9k76                            1/1     Running   1 (23h ago)    23h
kube-scheduler-master                       1/1     Running   32 (25m ago)   23h

查看详细信息后发现,探针一直有探测失败的情况

# kubectl describe po kube-controller-manager-master -n kube-system
Name:                 kube-controller-manager-master
Namespace:            kube-system
Priority:             2000001000
Priority Class Name:  system-node-critical
......
Events:
  Type     Reason     Age                  From     Message
  ----     ------     ----                 ----     -------
  Normal   Pulled     84m (x6 over 5h36m)  kubelet  C