k8s 集群组件状态日常运维排查

懒鸟一枚

于 2025-06-20 16:32:39 发布

阅读量642

点赞数 9

CC 4.0 BY-SA版权

分类专栏： docker 文章标签： kubernetes 运维容器

本文链接：https://blog.youkuaiyun.com/tian830937/article/details/148795174

19 篇文章

订阅专栏

在 Kubernetes（k8s）中，以下是一些重要的集群组件，可以通过 kubectl get componentstatuses 命令查看它们的状态：

一、Controller Manager（控制器管理器）

功能：
负责运行各种控制器，如 ReplicaSet 控制器、Deployment 控制器、Job 控制器等。这些控制器确保集群中的各种资源对象（如 Pods、ReplicaSets、Deployments 等）的期望状态和实际状态一致。
例如，当你创建一个 Deployment 时，Deployment 控制器会根据定义的副本数创建相应数量的 Pod 实例，并持续监控它们的状态，确保它们处于期望的状态。如果某个 Pod 失败，控制器会尝试创建新的 Pod 来替换它。
状态检查：

kubectl get componentstatuses

查看 controller-manager 的状态，正常情况下应该显示 Healthy 或类似的健康状态。如果出现 Unhealthy 或 Unknown ，可能表示控制器管理器出现了问题，需要进一步检查其日志，通常位于 /var/log/kube-controller-manager.log 。

功能：
负责将新创建的 Pod 调度到合适的 Node 上运行。它会考虑 Node 的资源可用性、亲和性、反亲和性、污点和容忍度等因素，为 Pod 选择最优的 Node。
例如，当有新的 Pod 创建时，调度器会根据 Node 的资源情况（如 CPU、内存）和各种调度策略，将 Pod 调度到满足条件的 Node 上。
状态检查：

kubectl get componentstatuses

观察 scheduler 的状态，正常状态应该是 Healthy 。如果状态异常，可能影响新创建的 Pod 的调度，可查看 /var/log/kube-scheduler.log 查找可能的问题。

功能：
- 是 Kubernetes 的存储后端，用于存储集群的所有配置信息和状态信息，如 Pod 的状态、Service 的信息、
- Secret 的信息等。
  它是一个分布式键值存储系统，确保数据的一致性和高可用性。
状态检查：

kubectl get componentstatuses

功能：
- 是 Kubernetes 集群的核心组件，提供了 Kubernetes 的 API 服务，是集群的前端接口。其他组件（如 kubectl、控制器、调度器等）都通过 API 服务器进行通信和操作集群资源。
- 它负责验证和处理客户端请求，将其存储到 etcd 中，并将结果反馈给客户端。
状态检查：

kubectl get componentstatuses

查看 kube-apiserver 的状态，应保持 Healthy 。异常状态可能会导致无法操作集群资源，可查看 /var/log/kube-apiserver.log 查找错误信息。

功能：
- 运行在每个 Node 上，负责管理 Node 上的容器，确保容器的创建、运行和销毁。它接收来自 API 服务器的 Pod 配置，并将其转换为容器运行。
- 同时，kubelet 会定期向 API 服务器报告 Node 和容器的状态，确保集群状态的更新。
状态检查：
- 虽然 kubectl get componentstatuses 通常不显示 kubelet 的状态，但可以使用以下命令检查 kubelet 的状态

systemctl status kubelet

或者查看 kubelet 的日志 /var/log/kubelet.log 来排查问题，例如容器启动失败、资源管理问题等。

功能：
- 负责在 Node 上实现服务的网络代理和负载均衡。它会维护 Node 上的网络规则，确保服务的请求能够正确路由到相应的 Pod。
- 对于不同的服务类型（如 ClusterIP、NodePort、LoadBalancer），kube-proxy 会进行不同的网络设置，以实现服务的访问。
状态检查：
- 可查看 kube-proxy 的日志，通常位于 /var/log/kube-proxy.log ，如果服务的网络访问出现问题，可能需要检查 kube-proxy 的状态和日志。

这些集群组件相互协作，共同维护 Kubernetes 集群的正常运行。通过 kubectl get componentstatuses 可以快速查看一些关键组件的状态，对于出现问题的组件，可以根据相应的日志和配置文件进行深入排查和解决，以确保集群的稳定性和可靠性。

请注意，不同的 Kubernetes 版本和部署环境可能会有一些细微的差异，但上述核心组件及其功能基本相同。同时，在生产环境中，可能会有额外的组件或插件，如网络插件（Calico、Flannel 等）、存储插件（Ceph、NFS 等），它们也需要进行状态检查和维护，以保证集群的整体性能和功能。