Kube-Prometheus故障排查与运维指南

Kube-Prometheus故障排查与运维指南

【免费下载链接】kube-prometheus prometheus-operator/kube-prometheus: kube-prometheus项目提供了在Kubernetes集群中部署Prometheus监控解决方案的一体化方法,包括Prometheus Server、Alertmanager、Grafana以及其他相关的监控组件,旨在简化在K8s环境下的监控配置与管理。 【免费下载链接】kube-prometheus 项目地址: https://gitcode.com/gh_mirrors/ku/kube-prometheus

本文详细介绍了Kubernetes环境中Kube-Prometheus监控栈的常见部署问题、数据采集异常诊断、告警规则调试与验证方法以及性能瓶颈分析与优化建议。涵盖了认证授权、镜像拉取、资源限制、网络配置、存储问题、版本兼容性等多个方面的故障排查和解决方案,提供了系统化的诊断流程和优化策略。

常见部署问题与解决方案

在Kubernetes环境中部署Kube-Prometheus监控栈时,经常会遇到各种部署问题。这些问题可能涉及权限配置、网络连接、资源限制等多个方面。本节将详细分析常见的部署问题,并提供相应的解决方案和排查方法。

认证与授权问题

kubelet指标收集失败

当Prometheus无法成功抓取kubelet指标时,通常是由于认证或授权配置不正确导致的。在Prometheus的/targets页面中,如果kubelet作业显示错误状态,需要检查以下配置:

问题现象:

  • 错误信息显示403 Unauthorized - 认证问题
  • 错误信息显示401 Unauthorized - 授权问题

解决方案:

# kubelet配置示例(需要在所有节点上配置)
# /var/lib/kubelet/config.yaml 或 kubelet启动参数
authentication:
  webhook:
    enabled: true
authorization:
  mode: Webhook

排查步骤:

  1. 检查kubelet配置:
# 检查kubelet当前配置
ps aux | grep kubelet | grep -E "(authentication-token-webhook|authorization-mode)"

# 或者检查配置文件
cat /var/lib/kubelet/config.yaml | grep -E "(authentication|authorization)"
  1. 验证ServiceAccount权限:
# 检查Prometheus ServiceAccount的权限
kubectl -n monitoring describe clusterrole prometheus-k8s
kubectl -n monitoring describe clusterrolebinding prometheus-k8s
RBAC权限不足

部署过程中常见的RBAC相关问题包括:

问题现象:

  • Pod无法启动,错误信息包含"forbidden"、"unauthorized"
  • 组件无法访问Kubernetes API

解决方案:

# 重新应用RBAC配置
kubectl apply --server-side -f manifests/setup
kubectl apply -f manifests/

镜像拉取问题

镜像拉取失败

由于网络限制或镜像仓库访问问题,可能导致组件镜像无法正常拉取。

问题现象:

  • Pod状态为ImagePullBackOffErrImagePull
  • 容器无法启动

解决方案:

  1. 使用国内镜像源:
# 修改镜像地址为国内源
sed -i 's/grafana\/grafana/registry.cn-hangzhou.aliyuncs.com\/google_containers\/grafana/g' manifests/grafana-deployment.yaml
  1. 配置镜像拉取密钥:
# 在Deployment中添加imagePullSecrets
spec:
  template:
    spec:
      imagePullSecrets:
      - name: regcred
  1. 检查网络连通性:
# 测试镜像仓库连通性
curl -I https://registry-1.docker.io/v2/

资源限制问题

内存不足导致OOMKill

监控组件可能需要较多内存资源,特别是在大规模集群中。

问题现象:

  • Pod频繁重启
  • 容器被OOMKill
  • 性能指标收集不全

解决方案:

# 调整资源限制示例(grafana-deployment.yaml)
resources:
  limits:
    cpu: 500m
    memory: 512Mi
  requests:
    cpu: 200m
    memory: 256Mi

资源调整建议:

组件CPU RequestCPU Limit内存 Request内存 Limit适用场景
Prometheus500m22Gi4Gi中小集群
Prometheus144Gi8Gi大型集群
Grafana100m500m100Mi512Mi默认配置
Alertmanager100m500m100Mi256Mi默认配置
kube-state-metrics100m200m150Mi300Mi默认配置

网络配置问题

服务发现失败

ServiceMonitor无法正确发现目标服务是常见问题。

问题现象:

  • Prometheus targets页面显示服务为down
  • 无法抓取特定命名空间的指标

解决方案:

  1. 检查ServiceMonitor配置:
# 示例ServiceMonitor配置
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: example-service
  namespace: monitoring
spec:
  selector:
    matchLabels:
      app: example-app
  endpoints:
  - port: web
    interval: 30s
  namespaceSelector:
    any: true  # 监控所有命名空间
  1. 验证网络策略:
# 检查NetworkPolicy配置
kubectl -n monitoring get networkpolicy
  1. 测试服务连通性:
# 从Prometheus Pod测试目标服务
kubectl -n monitoring exec -it prometheus-k8s-0 -- curl http://target-service:9090/metrics

存储配置问题

PVC绑定失败

持久化存储配置不当会导致数据丢失或组件无法启动。

问题现象:

  • Pod状态为Pending
  • 事件信息显示"persistentvolumeclaim not found"

解决方案:

  1. 检查StorageClass配置:
# 查看可用的StorageClass
kubectl get storageclass

# 修改Prometheus存储配置
kubectl -n monitoring edit prometheus k8s
  1. 配置适当的存储大小:
# Prometheus存储配置示例
spec:
  storage:
    volumeClaimTemplate:
      spec:
        storageClassName: standard
        resources:
          requests:
            storage: 50Gi

版本兼容性问题

Kubernetes版本不兼容

不同版本的Kube-Prometheus对Kubernetes版本有特定要求。

兼容性矩阵:

mermaid

解决方案:

  1. 检查版本兼容性:
# 查看Kubernetes版本
kubectl version --short

# 选择对应的Kube-Prometheus版本
git checkout release-0.14  # 对于Kubernetes 1.29-1.31
  1. 更新CRD定义:
# 先删除旧CRD再应用新版本
kubectl delete --ignore-not-found=true -f manifests/ -f manifests/setup
kubectl apply --server-side -f manifests/setup
kubectl apply -f manifests/

自定义配置问题

Jsonnet编译错误

使用Jsonnet进行自定义配置时可能遇到编译错误。

问题现象:

  • Jsonnet编译失败
  • 生成的YAML文件格式错误

解决方案:

  1. 安装Jsonnet工具:
# 安装Jsonnet
go install github.com/google/go-jsonnet/cmd/jsonnet@latest

# 安装Jsonnet-bundler
go install github.com/jsonnet-bundler/jsonnet-bundler/cmd/jb@latest
  1. 验证Jsonnet语法:
# 检查Jsonnet语法
jsonnet --check example.jsonnet

# 生成YAML文件进行验证
jsonnet -J vendor example.jsonnet | yq eval -P -
  1. 常见Jsonnet错误处理:
// 正确导入库
local kp = (import 'kube-prometheus/main.libsonnet') + {
  values+:: {
    common+: {
      namespace: 'monitoring',
    },
  },
};

// 生成完整配置
kp {
  // 自定义配置
}

监控数据收集问题

指标缺失或不全

某些特定组件的指标可能无法正常收集。

问题现象:

  • Dashboard显示数据缺失
  • 特定指标一直为0

解决方案:

  1. 检查kube-proxy配置:
# kube-proxy需要监听0.0.0.0才能被Prometheus抓取
kubectl -n kube-system edit cm kube-proxy
# 修改metricsBindAddress: 0.0.0.0:10249
  1. 验证组件指标端点:
# 检查各组件指标端点
curl http://localhost:10249/metrics  # kube-proxy
curl http://localhost:10250/metrics  # kubelet
curl http://localhost:8080/metrics   # kube-controller-manager
  1. 配置额外的ServiceMonitor:
# 监控kube-proxy的ServiceMonitor示例
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  labels:
    app.kubernetes.io/name: kube-proxy
  name: kube-proxy
  namespace: monitoring
spec:
  endpoints:
  - interval: 30s
    port: metrics
  jobLabel: app.kubernetes.io/name
  selector:
    matchLabels:
      app.kubernetes.io/name: kube-proxy

通过系统化的排查和解决这些常见部署问题,可以确保Kube-Prometheus监控栈在Kubernetes集群中稳定运行,为整个集群提供完整的监控能力。每个问题的解决都需要结合具体的环境配置和错误信息进行分析,建议在修改配置前做好备份,并逐步验证每个修改的效果。

监控数据采集异常诊断

在Kubernetes监控体系中,数据采集是整个监控链路的基础环节。当Kube-Prometheus出现数据采集异常时,需要系统性地进行故障排查。本节将深入探讨常见的采集异常场景及其诊断方法。

数据采集架构概述

Kube-Prometheus的数据采集基于Prometheus Operator架构,主要通过ServiceMonitor和PodMonitor资源对象来定义监控目标。整个采集流程涉及多个组件协同工作:

mermaid

常见采集异常场景

1. ServiceMonitor配置问题

ServiceMonitor是连接Prometheus和监控目标的关键桥梁。配置错误会导致目标无法被发现:

# 正确的ServiceMonitor配置示例
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: example-app
  namespace: monitoring
  labels:
    release: kube-prometheus
spec:
  selector:
    matchLabels:
      app: example-app
  namespaceSelector:
    matchNames:
    - default
  endpoints:
  - port: web
    interval: 30s
    path: /metrics

常见配置错误包括:

  • selector标签不匹配实际Service的标签
  • namespaceSelector配置错误
  • endpoint端口名称与实际Service端口不匹配
  • path路径配置错误
2. 网络连通性问题

网络问题是导致采集失败的常见原因,诊断流程如下:

mermaid

诊断命令示例:

# 从Prometheus Pod测试目标服务连通性
kubectl exec -it prometheus-k8s-0 -n monitoring -- sh
# 测试目标服务端口
nc -zv <target-service>.<namespace>.svc.cluster.local 9090
# 或使用curl测试metrics端点
curl http://<target-service>.<namespace>.svc.cluster.local:9090/metrics
3. 认证授权问题

在Kubernetes环境中,认证授权问题经常导致采集失败:

问题类型错误表现诊断方法解决方案
RBAC权限不足403 Forbidden检查ServiceAccount权限绑定合适ClusterRole
证书认证失败SSL错误检查证书有效性更新或配置正确证书
Token认证问题401 Unauthorized检查ServiceAccount Token确保Token自动挂载
4. 资源限制问题

资源限制可能导致采集进程异常:

# Prometheus资源限制配置
resources:
  requests:
    memory: 400Mi
    cpu: 100m
  limits:
    memory: 2Gi
    cpu: 500m

诊断资源限制问题:

# 检查Prometheus Pod资源使用情况
kubectl top pods -n monitoring

# 查看Pod事件和状态
kubectl describe pod prometheus-k8s-0 -n monitoring

# 检查容器内存压力
kubectl get events -n monitoring --field-selector involvedObject.name=prometheus-k8s-0

系统化诊断流程

建立完整的诊断流程可以帮助快速定位问题:

第一步:确认Prometheus状态
# 检查Prometheus Server状态
kubectl get prometheus -n monitoring

# 查看Prometheus Pod状态
kubectl get pods -n monitoring -l app.kubernetes.io/name=prometheus

# 检查Prometheus配置重载状态
kubectl exec -it prometheus-k8s-0 -n monitoring -- \
  curl -s http://localhost:9090/-/reload | grep status
第二步:检查ServiceMonitor配置
# 列出所有ServiceMonitor
kubectl get servicemonitor -n monitoring --show-labels

# 查看特定ServiceMonitor详情
kubectl describe servicemonitor <name> -n monitoring

# 检查生成的Prometheus配置
kubectl exec -it prometheus-k8s-0 -n monitoring -- \
  cat /etc/prometheus/config_out/prometheus.env.yaml | grep -A 10 -B 10 <target-name>
第三步:验证目标发现
# 查看Prometheus发现的监控目标
kubectl exec -it prometheus-k8s-0 -n monitoring -- \
  curl -s http://localhost:9090/api/v1/targets | jq '.data.activeTargets[] | select(.labels.job == "<job-name>")'

# 检查目标状态
kubectl exec -it prometheus-k8s-0 -n monitoring -- \
  curl -s http://localhost:9090/api/v1/targets | jq '.data.activeTargets[] | select(.health == "down")'
第四步:深入网络诊断

当基础检查正常但仍无法采集时,需要进行网络层深度诊断:

# 使用临时调试容器进行网络测试
kubectl run network-test --rm -it --image=nicolaka/netshoot --restart=Never -n monitoring -- \
  curl -v http://<target-service>.<namespace>.svc.cluster.local:9090/metrics

# 检查DNS解析
kubectl run dns-test --rm -it --image=nicolaka/netshoot --restart=Never -n monitoring -- \
  nslookup <target-service>.<namespace>.svc.cluster.local

# 检查网络策略
kubectl get networkpolicy -n monitoring --show-labels
kubectl describe networkpolicy <policy-name> -n monitoring

高级诊断技巧

使用Prometheus UI进行实时诊断

通过端口转发访问Prometheus Web界面:

kubectl port-forward -n monitoring svc/prometheus-k8s 9090:9090

在浏览器中访问 http://localhost:9090 后可以:

  • 查看Targets页面确认采集状态
  • 检查Configuration页面验证配置生成
  • 使用Graph页面测试指标查询
日志分析技巧

Prometheus和Prometheus Operator的日志包含丰富的诊断信息:

# 查看Prometheus Operator日志
kubectl logs -n monitoring -l app.kubernetes.io/name=prometheus-operator

# 查看Prometheus Server日志
kubectl logs -n monitoring -l app.kubernetes.io/name=prometheus -c prometheus

# 实时日志监控
kubectl logs -n monitoring -f -l app.kubernetes.io/name=prometheus-operator

关键日志模式识别:

  • level=error 错误信息
  • sync prometheus configuration failed 配置同步失败
  • target is down 目标不可用
  • connection refused 连接拒绝
指标监控和告警

建立采集健康度的监控指标:

# 采集健康度监控规则示例
apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: scrape-health-monitoring
  namespace: monitoring
spec:
  groups:
  - name: scrape-health
    rules:
    - alert: HighScrapeFailureRate
      expr: rate(prometheus_target_scrapes_exceeded_sample_limit_total[5m]) > 0.1
      for: 5m
      labels:
        severity: warning
      annotations:
        description: Scrape failure rate is too high for {{ $labels.job }}
        summary: High scrape failure rate detected

通过系统化的诊断方法和工具链,可以快速定位和解决Kube-Prometheus中的数据采集异常问题,确保监控系统的稳定运行。

告警规则调试与验证方法

在Kubernetes监控体系中,告警规则的准确性和可靠性直接关系到系统的稳定性。Kube-Prometheus提供了完善的告警机制,但如何有效调试和验证告警规则是运维人员必须掌握的核心技能。本节将深入探讨告警规则的调试方法、验证策略以及常见问题排查技巧。

告警规则结构解析

Kube-Prometheus中的告警规则通过PrometheusRule CRD(Custom Resource Definition)进行定义和管理。每个告警规则包含以下几个关键组成部分:

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: example-rules
  namespace: monitoring
spec:
  groups:
  - name: example.rules
    rules:
    - alert: HighCPUUsage
      expr: node_cpu_seconds_total{mode="idle"} < 10
      for: 5m
      labels:
        severity: critical
      annotations:
        description: CPU usage is above 90% on {{ $labels.instance }}
        summary: High CPU usage detected

调试工具与方法

1. Prometheus表达式浏览器调试

使用Prometheus UI的Graph页面可以直接测试告警表达式:

# 测试CPU使用率告警表达式
100 - (avg by(instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 90

# 验证表达式结果
count by(alertname) (ALERTS{alertstate="firing"})
2. 命令行工具验证

使用promtool工具进行规则文件语法检查:

# 检查规则文件语法
promtool check rules manifests/alertmanager-prometheusRule.yaml

# 测试规则表达式
promtool test rules test-rules.yaml
3. 实时监控告警状态

通过以下查询监控当前触发的告警:

# 查看所有活跃告警
ALERTS{alertstate="firing"}

# 查看特定告警规则的状态
ALERTS{alertname="HighCPUUsage"}

# 监控告警规则评估频率
rate(prometheus_rule_evaluations_total[5m])

验证策略与最佳实践

单元测试验证

创建专门的测试规则文件来验证告警逻辑:

# test-alerts.yaml
groups:
- name: test-rules
  rules:
  - alert: TestAlertAlwaysFiring
    expr: vector(1)
    labels:
      severity: test
    annotations:
      description: Test alert for validation purposes
集成测试流程

建立完整的告警验证流水线:

mermaid

常见问题排查

1. 告警未触发排查

当告警规则未按预期触发时,按以下步骤排查:

问题现象可能原因解决方法
表达式返回空结果指标名称错误或标签不匹配使用Prometheus UI验证表达式
for持续时间未满足告警条件短暂触发后恢复调整for持续时间或检查数据波动
规则文件未加载Prometheus配置问题检查Prometheus规则配置
2. 误报警排查

减少误报警的关键策略:

# 添加数据完整性检查
node_cpu_seconds_total offset 1h != 0 AND node_cpu_seconds_total > 90

# 使用滑动窗口减少波动影响
avg_over_time(node_cpu_seconds_total[10m]) > 90

# 排除异常实例
node_cpu_seconds_total unless on(instance) up{job="node-exporter"} == 0

高级调试技巧

1. 规则评估调试

监控规则评估性能和行为:

# 监控规则评估延迟
histogram_quantile(0.95, rate(prometheus_rule_evaluation_duration_seconds_bucket[5m]))

# 检查规则评估错误
rate(prometheus_rule_evaluation_failures_total[5m])

# 跟踪规则变化
changes(prometheus_rule_group_last_evaluation_timestamp[1h])
2. Alertmanager集成调试

验证告警路由和通知配置:

# 检查Alertmanager配置
kubectl get secret alertmanager-main -n monitoring -o jsonpath='{.data.alertmanager\.yaml}' | base64 -d

# 模拟告警发送
curl -X POST http://alertmanager:9093/api/v1/alerts -d '[{
  "labels": {"alertname": "TestAlert", "severity": "warning"},
  "annotations": {"description": "Test alert"},
  "generatorURL": "http://prometheus:9090"
}]'

监控告警规则健康状态

建立告警规则自身的监控体系:

groups:
- name: alerting-rules-monitoring
  rules:
  - alert: RuleEvaluationFailed
    expr: rate(prometheus_rule_evaluation_failures_total[5m]) > 0
    for: 2m
    labels:
      severity: critical
    annotations:
      description: Prometheus rule evaluation is failing
      
  - alert: RuleGroupStalled
    expr: time() - prometheus_rule_group_last_evaluation_timestamp > 300
    for: 5m
    labels:
      severity: warning
    annotations:
      description: Rule group has not been evaluated for 5 minutes

通过系统化的调试和验证方法,可以确保告警规则的准确性和可靠性,为Kubernetes集群的稳定运行提供有力保障。定期审查和测试告警规则,结合监控数据持续优化,是构建健壮监控体系的关键环节。

性能瓶颈分析与优化建议

在Kube-Prometheus监控栈的日常运维中,性能瓶颈分析是确保监控系统稳定运行的关键环节。本节将深入探讨常见的性能瓶颈点、监控指标分析方法和优化策略,帮助您构建高效可靠的监控体系。

常见性能瓶颈识别

Kube-Prometheus监控栈的性能瓶颈通常出现在以下几个关键组件:

1. Prometheus Server性能瓶颈

内存使用过高

# Prometheus资源配置示例
resources:
  requests:
    memory: 400Mi
  # 注意:默认配置未设置limits,可能导致内存无限增长

识别指标:

  • process_resident_memory_bytes:进程常驻内存大小
  • prometheus_tsdb_head_chunks:TSDB头部chunk数量
  • prometheus_tsdb_compactions_total:压缩操作次数
2. kube-state-metrics资源消耗

kube-state-metrics是资源消耗大户,特别是在大规模集群中:

# kube-state-metrics默认资源配置
resources:
  limits:
    cpu: 100m
    memory: 250Mi
  requests:
    cpu: 10m
    memory: 190Mi

性能影响因子:

  • 集群节点数量
  • Pod/Service/Endpoint等对象数量
  • API Server请求频率
3. 存储性能瓶颈

TSDB存储性能直接影响查询和抓取效率:

mermaid

关键监控指标分析

Prometheus核心性能指标
指标名称阈值建议说明
prometheus_tsdb_head_series< 1000万内存中活跃序列数
prometheus_target_scrape_pool_targets监控趋势抓取目标数量
rate(prometheus_tsdb_compactions_failed_total[5m])= 0压缩失败率
process_resident_memory_bytes< 80% 内存限制内存使用率
kube-state-metrics性能指标
# kube-state-metrics列表操作错误率
(
  sum(rate(kube_state_metrics_list_total{result="error"}[5m])) 
  / 
  sum(rate(kube_state_metrics_list_total[5m]))
) > 0.01

# watch操作错误率监控
(
  sum(rate(kube_state_metrics_watch_total{result="error"}[5m])) 
  / 
  sum(rate(kube_state_metrics_watch_total[5m]))
) > 0.01

优化策略与实践

1. 资源限制优化

调整kube-state-metrics资源配置:

// 自定义资源配置示例
local kp = (import 'kube-prometheus/main.libsonnet') + {
  values+:: {
    kubeStateMetrics+: {
      resources+: {
        requests: {
          cpu: '50m',
          memory: '256Mi'
        },
        limits: {
          cpu: '200m', 
          memory: '512Mi'
        }
      }
    }
  }
}
2. 抓取配置优化

减少不必要的metrics采集:

# 在ServiceMonitor中配置metricRelabelings
metricRelabelings:
- sourceLabels: [__name__]
  regex: '(kube_pod_info|kube_node_info)'
  action: keep
3. 存储优化策略

TSDB配置调优:

# Prometheus自定义配置
spec:
  retention: 15d
  retentionSize: "50GB"
  walCompression: true
  rules:
    alert:
      forOutageTolerance: 1h
      forGracePeriod: 10m
4. 水平扩展方案

Prometheus分片策略:

# 通过sharding实现水平扩展
spec:
  shards: 3
  replicaExternalLabelName: "prometheus_replica"

性能调优检查清单

  1. 内存使用监控

    • 设置合理的内存limits防止OOM
    • 监控container_memory_working_set_bytes
    • 调整--storage.tsdb.retention控制数据保留时间
  2. CPU资源优化

    • 根据抓取目标数量调整CPU requests/limits
    • 监控container_cpu_usage_seconds_total
    • 考虑使用CPU绑核减少上下文切换
  3. 磁盘I/O优化

    • 使用高性能存储(SSD)
    • 监控node_disk_io_time_seconds_total
    • 调整WAL和block文件存储路径
  4. 网络性能优化

    • 监控node_network_receive_bytes_total
    • 优化ServiceMonitor的scrape间隔
    • 考虑网络策略对性能的影响

高级调优技巧

使用Recording Rules减少查询负载
# 创建预计算规则减轻查询压力
groups:
- name: example
  rules:
  - record: job:http_inprogress_requests:sum
    expr: sum by (job) (http_inprogress_requests)
优化标签基数

避免高基数标签:

metricRelabelings:
- action: labeldrop
  regex: '(pod|instance)'
监控组件自监控

确保监控系统自身健康:

# 监控Prometheus自身抓取成功率
sum(rate(prometheus_http_requests_total{code=~"2.."}[5m])) 
/ 
sum(rate(prometheus_http_requests_total[5m]))

通过系统化的性能瓶颈分析和针对性的优化措施,可以显著提升Kube-Prometheus监控栈的稳定性和性能,确保在大规模生产环境中可靠运行。

总结

通过系统化的故障排查方法和针对性的优化措施,可以确保Kube-Prometheus监控栈在Kubernetes集群中稳定运行。本文提供的部署问题解决方案、数据采集异常诊断流程、告警规则调试技巧以及性能瓶颈分析建议,为运维人员构建高效可靠的监控体系提供了全面指导。定期审查和优化监控配置,结合监控数据持续改进,是保障整个集群监控能力的关键环节。

【免费下载链接】kube-prometheus prometheus-operator/kube-prometheus: kube-prometheus项目提供了在Kubernetes集群中部署Prometheus监控解决方案的一体化方法,包括Prometheus Server、Alertmanager、Grafana以及其他相关的监控组件,旨在简化在K8s环境下的监控配置与管理。 【免费下载链接】kube-prometheus 项目地址: https://gitcode.com/gh_mirrors/ku/kube-prometheus

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值