VictoriaMetrics高可用集群在Kubernetes中的监控实践指南

戚逸玫Silas

于 2025-06-03 09:00:10 发布

阅读量406

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01135/article/details/148391420

VictoriaMetrics高可用集群在Kubernetes中的监控实践指南

VictoriaMetrics VictoriaMetrics/VictoriaMetrics: 是一个开源的实时指标监控和存储系统，用于大规模数据实时分析和监控。它具有高吞吐量、低延迟、可扩展性等特点，可以帮助开发者构建高性能的监控系统和数据平台。特点包括实时监控、高性能、可扩展性、支持多种数据源等。项目地址: https://gitcode.com/gh_mirrors/vi/VictoriaMetrics

前言

在现代云原生环境中，监控系统的高可用性至关重要。VictoriaMetrics作为高性能的时序数据库，其集群版本提供了出色的高可用性和横向扩展能力。本文将详细介绍如何在Kubernetes环境中部署和配置VictoriaMetrics集群，实现高可用监控解决方案。

环境准备

在开始部署前，请确保满足以下条件：

Kubernetes集群（版本1.19.12或更高）
Helm 3包管理工具
kubectl命令行工具（版本1.21或更高）
jq工具（用于处理JSON数据）

1. 部署VictoriaMetrics集群

VictoriaMetrics集群由三个核心组件组成：

vmselect：负责查询处理
vminsert：负责数据写入
vmstorage：负责数据存储

使用Helm部署集群的配置如下：

vmselect:
  extraArgs:
    dedup.minScrapeInterval: 1ms  # 1毫秒粒度的数据去重
    replicationFactor: 2          # 数据复制因子为2
  podAnnotations:
    prometheus.io/scrape: "true"  # 允许Prometheus抓取指标
    prometheus.io/port: "8481"    # 指标暴露端口
  replicaCount: 3                 # 3个副本

vminsert:
  extraArgs:
    replicationFactor: 2          # 写入复制因子
  podAnnotations:
    prometheus.io/scrape: "true"
    prometheus.io/port: "8480"
  replicaCount: 3

vmstorage:
  podAnnotations:
    prometheus.io/scrape: "true"
    prometheus.io/port: "8482"
  replicaCount: 3

关键配置说明：

dedup.minScrapeInterval：设置为1ms可实现精细粒度的数据去重，确保同一时间序列在相同1ms时间桶内的数据点会被去重
replicationFactor：复制因子2意味着数据会在两个不同的vmstorage节点上保存副本
replicaCount：每个组件3个副本确保高可用性

部署完成后，使用kubectl get pods命令验证所有Pod是否正常运行。

2. 部署vmagent进行指标收集

vmagent是轻量级的指标收集器，我们将它配置为从Kubernetes组件收集指标并发送到VictoriaMetrics集群。

核心配置包括：

remoteWrite:
  - url: http://vmcluster-victoria-metrics-cluster-vminsert.default.svc.cluster.local:8480/insert/0/prometheus/

scrape_configs:
  - job_name: "kubernetes-apiservers"
    kubernetes_sd_configs:
      - role: endpoints
    # 其他Kubernetes组件抓取配置...

vmagent会自动发现并抓取以下Kubernetes组件的指标：

API服务器
节点指标
cAdvisor容器指标
kubelet指标

3. 验证数据收集

部署完成后，可以通过以下方式验证数据是否正常收集：

直接查询API：

curl -sg 'http://127.0.0.1:8481/select/0/prometheus/api/v1/query_range?query=count(up{kubernetes_pod_name=~".*vmselect.*"})&start=-10m&step=1m' | jq

预期应返回值为3，对应3个vmselect副本。

通过Grafana可视化：
- 安装Grafana并配置VictoriaMetrics为数据源
- 在Explore页面查询相同指标

4. 高可用性测试

为了验证集群的高可用性，我们可以模拟一个vmstorage节点故障：

kubectl scale sts vmcluster-victoria-metrics-cluster-vmstorage --replicas=2

此时集群中vmstorage节点从3个减少到2个，但查询应仍然能正常返回完整数据，因为：

复制因子为2，数据有冗余
vmselect会自动从可用节点获取数据

5. 关键配置解析

数据去重(dedup)：
- 确保相同时间戳的数据点不会重复存储
- 1ms的粒度提供了精确的去重控制
复制因子(replicationFactor)：
- 决定数据在多少个vmstorage节点上保存副本
- 设置为2时，最多可容忍1个节点故障
- 需要与vmstorage副本数协调配置
服务发现配置：
- vmagent利用Kubernetes的服务发现机制自动找到监控目标
- 通过relabel配置实现灵活的指标过滤和标签处理