kubernetes集群监控 Kube-Prometheus-Stack

原创

已于 2023-06-05 14:57:25 修改 · 2.7k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#运维 #kubernetes #prometheus #容器 #grafana

于 2023-05-08 09:15:04 首次发布

本文介绍了如何使用kube-prometheus-stack对Kubernetes集群进行全方位监控，包括基础设施、节点、容器和服务等。通过Helm部署Prometheus、Alertmanager和Grafana等组件，实现监控和告警。此外，文章展示了监控内容，如node-exporter、alertmanager、coredns等，并提供了登录Grafana的步骤。

kubernetes集群监控

概述

Kubernetes（K8s）集群监控是指对Kubernetes集群中的各个组件和资源进行实时监测和数据收集，以获取对集群健康状态、性能指标和事件的可视化和告警。Kubernetes集群监控的内容通常包括以下几个方面：

基础设施监控：监控物理服务器、虚拟机或云实例的资源使用情况，包括CPU、内存、磁盘和网络等指标。这可以帮助确保集群的底层基础设施正常运行，并及时发现资源瓶颈或故障
节点监控：监控集群中的每个节点（Node），包括节点的健康状态、资源利用率、负载和容器的运行情况等。这有助于实时了解节点的可用性和性能，并做出相应的调整或故障排除
容器监控：监控集群中的容器，包括容器的运行状态、资源消耗、日志和事件等。这可以帮助追踪容器的运行情况，及时发现异常或故障，并进行适当的处理
服务监控：监控Kubernetes集群中的服务（Service），包括服务的可用性、响应时间、请求量和错误率等。这有助于实时了解服务的性能和用户体验，并及时发现和解决潜在的问题
应用监控：监控在Kubernetes集群中运行的应用程序，包括应用的运行状态、性能指标、日志和事件等。这可以帮助开发人员和运维人员追踪应用的健康状况，识别性能瓶颈和故障，并进行及时的调优和修复
日志监控：集中收集和分析Kubernetes集群中的日志数据，以帮助排查问题、分析事件和进行故障诊断。通过对日志进行实时监控和分析，可以及时发现异常情况并采取相应的措施
告警和警报：配置告警规则和警报策略，及时通知相关人员或系统，以便对潜在的问题和故障进行响应和处理。告警和警报可基于预设的阈值、规则和事件触发，保障对集群的及时响应和故障恢复

监控选型

kube-prometheus-stack是一个开源的Kubernetes监控解决方案，它基于Prometheus和Grafana构建，旨在为Kubernetes集群提供全面的监控和可视化能力。

kube-prometheus-stack提供了一个完整的监控栈，包含了多个组件和工具，使得监控Kubernetes集群变得更加简单和高效，主要组件和功能包括：

Prometheus Operator：这个组件是kube-prometheus-stack的核心，它简化了在Kubernetes上部署和管理Prometheus实例的过程。Prometheus Operator使用自定义资源定义（Custom Resource Definitions，CRDs）来定义和配置Prometheus、Alertmanager和其他相关资源
Prometheus：Prometheus是一个强大的开源监控系统，用于收集和存储时间序列数据。它可以通过Prometheus Operator自动部署，并与Kubernetes集成，收集集群、节点和容器级别的指标数据
Alertmanager：Alertmanager用于处理和路由告警通知。它与Prometheus Operator集成，可以根据预定义的规则和配置发送告警通知，支持多种通知方式
Grafana：Grafana是一个流行的开源数据可视化和仪表盘工具。kube-prometheus-stack预先配置了一组Grafana仪表盘，用于展示Kubernetes集群的各种监控指标，并提供了灵活的可视化和报表功能
Exporters和集成组件：kube-prometheus-stack集成了多个Prometheus Exporters，用于收集来自Kubernetes集群和应用程序的指标数据。它还提供了与其他相关工具和组件的集成，如kube-state-metrics、node-exporter、kubelet等

通过使用kube-prometheus-stack，可以轻松地设置和配置一个功能齐全的Kubernetes监控解决方案。它提供了自动化的部署和管理流程，使得监控Kubernetes集群的配置和维护变得更加简单和可靠。同时，通过Grafana的可视化能力，可以方便地查看和分析集群的各种监控指标，以便更好地了解和管理您的Kubernetes环境。

项目的开源地址：https://github.com/prometheus-community/helm-charts

kube-prometheus-stack部署

Helm部署

添加官方的charts仓库

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts

运行helm install命令即可完成安装，在这里我把这个charts的相关的k8s组件均部署在promethues中去，便于后期的管理

helm install prometheus prometheus-community/kube-prometheus-stack -n prometheus

检查安装状态

helm list
NAME      	NAMESPACE 	REVISION	UPDATED                                	STATUS  	CHART                       	APP VERSION
prometheus	prometheus	1       	2023-05-31 19:42:57.004135649 +0800 CST	deployed	kube-prometheus-stack-46.4.2	v0.65.1

当显示为deployed，表示该charts已经部署到k8s集群中了。

注意在charts部署过程中，需要拉取很多镜像，有些镜像可能需要一些魔法才能拉取到。