Metrics Server部署与配置实战：从单实例到高可用集群-优快云博客

Metrics Server部署与配置实战：从单实例到高可用集群

【免费下载链接】metrics-server 项目地址: https://gitcode.com/gh_mirrors/met/metrics-server

本文详细介绍了Metrics Server的两种主要部署方式：YAML清单部署和Helm Chart部署，并深入探讨了高可用架构设计、版本兼容性、安全上下文配置、RBAC权限管理以及性能调优策略。文章提供了从基础部署到生产环境高可用集群的完整实战指南，包括关键配置参数详解、最佳实践建议和故障排除方法，帮助读者在不同规模的Kubernetes集群中成功部署和优化Metrics Server。

YAML清单部署与Helm Chart配置

Metrics Server提供了两种主要的部署方式：直接使用YAML清单文件和通过Helm Chart进行部署。这两种方式各有优势，适用于不同的场景需求。下面我们将详细解析这两种部署方式的配置细节和最佳实践。

YAML清单部署方式

YAML清单部署是最直接的方式，适合需要完全控制部署配置的场景。Metrics Server提供了基础清单文件，位于项目的manifests/base/目录中。

核心组件分析

Metrics Server的YAML部署包含以下关键组件：

# API Service定义 - 启用Metrics API
apiVersion: apiregistration.k8s.io/v1
kind: APIService
metadata:
  name: v1beta1.metrics.k8s.io
spec:
  service:
    name: metrics-server
    namespace: kube-system
  group: metrics.k8s.io
  version: v1beta1
  insecureSkipTLSVerify: true
  groupPriorityMinimum: 100
  versionPriority: 100

# Deployment配置 - 核心服务部署
apiVersion: apps/v1
kind: Deployment
metadata:
  name: metrics-server
  namespace: kube-system
spec:
  strategy:
    rollingUpdate:
      maxUnavailable: 0
  template:
    spec:
      serviceAccountName: metrics-server
      priorityClassName: system-cluster-critical
      containers:
      - name: metrics-server
        image: registry.k8s.io/metrics-server/metrics-server:v0.7.0
        args:
          - --cert-dir=/tmp
          - --secure-port=10250
          - --kubelet-preferred-address-types=InternalIP,ExternalIP,Hostname
          - --kubelet-use-node-status-port
          - --metric-resolution=15s
        resources:
          requests:
            cpu: 100m
            memory: 200Mi

关键配置参数说明

下表列出了YAML部署中的关键配置参数及其作用：

参数	默认值	说明
`--cert-dir`	`/tmp`	证书存储目录
`--secure-port`	`10250`	HTTPS服务端口
`--kubelet-preferred-address-types`	`InternalIP,ExternalIP,Hostname`	Kubelet地址类型优先级
`--kubelet-use-node-status-port`	`true`	使用节点状态端口
`--metric-resolution`	`15s`	指标收集频率
`resources.requests.cpu`	`100m`	CPU资源请求
`resources.requests.memory`	`200Mi`	内存资源请求

部署流程示意

mermaid

Helm Chart部署方式

Helm Chart提供了更灵活的配置方式，支持参数化部署和版本管理。Metrics Server的Helm Chart位于项目的charts/metrics-server/目录中。

Helm Values配置详解

Helm Chart的values.yaml文件提供了丰富的配置选项：

# 镜像配置
image:
  repository: registry.k8s.io/metrics-server/metrics-server
  tag: "v0.7.0"
  pullPolicy: IfNotPresent

# 副本数配置
replicas: 1

# 资源限制
resources:
  requests:
    cpu: 100m
    memory: 200Mi
  limits:
    cpu: 200m
    memory: 400Mi

# 网络配置
hostNetwork:
  enabled: false
containerPort: 10250

# 探针配置
livenessProbe:
  httpGet:
    path: /livez
    port: https
    scheme: HTTPS
  periodSeconds: 10
  failureThreshold: 3

readinessProbe:
  httpGet:
    path: /readyz
    port: https
    scheme: HTTPS
  initialDelaySeconds: 20
  periodSeconds: 10
  failureThreshold: 3

高级配置选项

Helm Chart支持多种高级配置，满足不同环境需求：

高可用性配置：

replicas: 2
podDisruptionBudget:
  enabled: true
  minAvailable: 1
affinity:
  podAntiAffinity:
    preferredDuringSchedulingIgnoredDuringExecution:
    - weight: 100
      podAffinityTerm:
        labelSelector:
          matchExpressions:
          - key: app.kubernetes.io/name
            operator: In
            values:
            - metrics-server
        topologyKey: kubernetes.io/hostname

自定义参数配置：

args:
  - --kubelet-insecure-tls
  - --requestheader-client-ca-file=/etc/ssl/certs/ca-certificates.crt
  - --v=2

配置参数对比表

下表对比了YAML和Helm两种部署方式的主要配置差异：

配置项	YAML方式	Helm方式	优势
版本管理	手动修改	版本控制	Helm支持版本回滚
参数配置	硬编码	模板化	Helm支持动态参数
环境差异	多文件管理	Values文件	Helm支持环境隔离
依赖管理	手动处理	自动处理	Helm处理Chart依赖
更新策略	全量替换	增量更新	Helm支持优雅更新

部署决策流程图

mermaid

最佳实践建议

生产环境部署：
- 使用Helm Chart进行版本管理
- 配置至少2个副本实现高可用
- 设置PodDisruptionBudget确保服务连续性
- 根据集群规模调整资源限制
开发测试环境：
- 可以使用简单的YAML清单部署
- 单副本配置节省资源
- 启用--kubelet-insecure-tls简化证书配置
监控配置：
- 配置合适的探针间隔和超时时间
- 设置资源限制防止资源耗尽
- 启用Metrics导出用于监控
网络配置：
- 在复杂网络环境中考虑使用hostNetwork模式
- 配置正确的kubelet地址类型优先级
- 确保控制平面可以访问Metrics Server

通过合理选择部署方式和配置参数，可以确保Metrics Server在各种环境下稳定运行，为Kubernetes集群提供可靠的资源指标数据。

高可用部署方案与版本兼容性

在Kubernetes生产环境中，Metrics Server的高可用性部署至关重要。Metrics Server作为集群自动扩缩容的核心组件，其稳定性直接影响着HPA和VPA的正常工作。本节将深入探讨Metrics Server的高可用部署方案及其与不同Kubernetes版本的兼容性。

高可用架构设计原理

Metrics Server的高可用部署基于Kubernetes原生的高可用机制，主要包括以下几个方面：

Pod反亲和性调度：确保Metrics Server的多个副本不会调度到同一个节点上，避免单点故障。

affinity:
  podAntiAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
    - labelSelector:
        matchLabels:
          k8s-app: metrics-server
      namespaces:
      - kube-system
      topologyKey: kubernetes.io/hostname

PodDisruptionBudget配置：保证在维护或节点故障期间，至少有一个Metrics Server实例保持运行。

apiVersion: policy/v1
kind: PodDisruptionBudget
metadata:
  name: metrics-server
  namespace: kube-system
spec:
  minAvailable: 1
  selector:
    matchLabels:
      k8s-app: metrics-server

多副本部署：默认部署2个副本，通过负载均衡提供服务。

mermaid

版本兼容性矩阵

Metrics Server与Kubernetes版本的兼容性是一个关键考虑因素。不同版本的Metrics Server支持不同的Kubernetes版本和API版本：

Metrics Server版本	Metrics API版本	支持的Kubernetes版本	关键特性变更
0.7.x	metrics.k8s.io/v1beta1	1.19+	正式支持Kubernetes 1.25+
0.6.x	metrics.k8s.io/v1beta1	1.19+	安全性增强，默认非root运行
0.5.x	metrics.k8s.io/v1beta1	1.8+	资源请求优化，支持100节点集群
0.4.x	metrics.k8s.io/v1beta1	1.8+	基础高可用支持
0.3.x	metrics.k8s.io/v1beta1	1.8-1.21	初始版本，基础功能

Kubernetes 1.21+ 的高可用部署

对于Kubernetes 1.21及以上版本，推荐使用专门优化的高可用配置：

# Kubernetes 1.21+ 高可用部署
kubectl apply -f https://github.com/kubernetes-sigs/metrics-server/releases/latest/download/high-availability-1.21+.yaml

该配置的主要改进包括：

PodDisruptionBudget API版本升级：从policy/v1beta1升级到policy/v1
增强的调度约束：支持拓扑分布约束
资源优化：针对大规模集群的资源请求调整

Kubernetes 1.19-1.20 的高可用部署

对于Kubernetes 1.19到1.20版本，使用兼容性配置：

# Kubernetes 1.19-1.21 高可用部署
kubectl apply -f https://github.com/kubernetes-sigs/metrics-server/releases/latest/download/high-availability.yaml

这个版本使用policy/v1beta1版本的PodDisruptionBudget，确保向后兼容性。

Helm Chart高可用配置

使用Helm部署时，可以通过values.yaml配置高可用：

# values.yaml 高可用配置
replicas: 2

podDisruptionBudget:
  enabled: true
  minAvailable: 1

affinity:
  podAntiAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
    - labelSelector:
        matchLabels:
          app.kubernetes.io/name: metrics-server
      topologyKey: kubernetes.io/hostname

updateStrategy:
  type: RollingUpdate
  rollingUpdate:
    maxUnavailable: 1
    maxSurge: 0

版本迁移策略

在进行Metrics Server版本升级时，需要遵循以下迁移策略：

先验测试：在非生产环境测试新版本兼容性
渐进式部署：先部署一个副本，验证正常后再扩展
监控验证：确保metrics API响应正常，HPA功能不受影响
回滚预案：准备快速回滚到之前稳定版本的计划

mermaid

关键配置参数与版本适配

不同版本的Metrics Server需要关注不同的配置参数：

安全上下文配置（v0.6.0+）：

securityContext:
  allowPrivilegeEscalation: false
  readOnlyRootFilesystem: true
  runAsNonRoot: true
  runAsUser: 1000
  capabilities:
    drop:
      - ALL

资源请求配置（v0.5.0+优化）：

resources:
  requests:
    cpu: 100m
    memory: 200Mi
  limits:
    cpu: 200m
    memory: 200Mi

网络配置（多版本通用）：

hostNetwork: false
containerPort: 10250
service:
  type: ClusterIP
  port: 443

故障排除与兼容性验证

部署高可用Metrics Server后，需要进行全面的兼容性验证：

API版本验证：

kubectl get apiservice v1beta1.metrics.k8s.io -o yaml

服务端点检查：

kubectl get endpoints metrics-server -n kube-system

指标数据验证：

kubectl top nodes
kubectl top pods --all-namespaces

HPA功能测试：创建测试Deployment和HPA，验证自动扩缩容功能正常

通过以上高可用部署方案和版本兼容性策略，可以确保Metrics Server在生产环境中的稳定运行，为Kubernetes集群提供可靠的资源指标数据服务。

安全上下文与权限配置最佳实践

在Kubernetes集群中部署Metrics Server时，安全配置是确保集群稳定性和安全性的关键环节。Metrics Server作为核心监控组件，需要访问节点指标数据并与API服务器进行安全通信，因此必须遵循最小权限原则和安全最佳实践。

安全上下文配置

Metrics Server提供了严格的安全上下文配置，确保容器以非特权用户运行并限制不必要的系统权限：

securityContext:
  allowPrivilegeEscalation: false
  readOnlyRootFilesystem: true
  runAsNonRoot: true
  runAsUser: 1000
  seccompProfile:
    type: RuntimeDefault
  capabilities:
    drop:
      - ALL

这个配置体现了以下安全最佳实践：

禁止权限提升：allowPrivilegeEscalation: false 防止容器进程获取额外权限
只读根文件系统：readOnlyRootFilesystem: true 限制文件系统写入操作
非root用户运行：runAsNonRoot: true 和 runAsUser: 1000 确保以非特权用户运行
Seccomp配置文件：使用默认的运行时安全计算模式配置文件
丢弃所有能力：移除所有Linux能力，仅保留必要的最小权限

必要的Linux能力

虽然默认配置丢弃所有能力，但Metrics Server在某些场景下需要特定的Linux能力：

mermaid

当Metrics Server需要绑定到10250等特权端口时，必须授予 CAP_NET_BIND_SERVICE 能力：

securityContext:
  capabilities:
    drop:
      - ALL
    add:
      - NET_BIND_SERVICE

RBAC权限配置

Metrics Server需要精确的RBAC权限来执行其功能。以下是推荐的权限配置：

集群角色权限

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: system:metrics-server
rules:
- apiGroups: [""]
  resources:
  - nodes/metrics
  verbs:
  - get
- apiGroups: [""]
  resources:
  - pods
  - nodes
  verbs:
  - get
  - list
  - watch

认证委托权限

Metrics Server需要读取API服务器的认证配置：

apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: metrics-server-auth-reader
  namespace: kube-system
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: Role
  name: extension-apiserver-authentication-reader
subjects:
- kind: ServiceAccount
  name: metrics-server
  namespace: kube-system

认证委托器权限

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: metrics-server:system:auth-delegator
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: system:auth-delegator
subjects:
- kind: ServiceAccount
  name: metrics-server
  namespace: kube-system

服务账户配置

使用专用的服务账户并限制其权限：

apiVersion: v1
kind: ServiceAccount
metadata:
  name: metrics-server
  namespace: kube-system
  annotations:
    # 可选：限制可挂载的secret
    kubernetes.io/enforce-mountable-secrets: "true"

Pod安全策略（PSP）配置

对于使用PodSecurityPolicy的集群，需要配置适当的策略：

apiVersion: policy/v1beta1
kind: PodSecurityPolicy
metadata:
  name: metrics-server-psp
spec:
  allowedCapabilities:
  - NET_BIND_SERVICE
  fsGroup:
    rule: RunAsAny
  runAsUser:
    rule: MustRunAsNonRoot
  seLinux:
    rule: RunAsAny
  supplementalGroups:
    rule: RunAsAny
  volumes:
  - emptyDir
  - secret
  - configMap

网络策略配置

限制Metrics Server的网络访问范围：

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: metrics-server-network-policy
  namespace: kube-system
spec:
  podSelector:
    matchLabels:
      k8s-app: metrics-server
  policyTypes:
  - Ingress
  - Egress
  ingress:
  - from:
    - namespaceSelector:
        matchLabels:
          kubernetes.io/metadata.name: kube-system
    ports:
    - protocol: TCP
      port: 10250
  egress:
  - to:
    - ipBlock:
        cidr: 0.0.0.0/0
    ports:
    - protocol: TCP
      port: 10250

TLS和安全通信

确保Metrics Server使用安全的TLS配置：

args:
- --tls-cert-file=/etc/ssl/certs/tls.crt
- --tls-private-key-file=/etc/ssl/private/tls.key
- --secure-port=10250
- --kubelet-use-node-status-port
- --kubelet-insecure-tls=false  # 生产环境应为false

安全审计和监控

配置适当的安全审计和监控：

# 启用详细日志记录
args:
- --v=2
- --logtostderr=true

# 监控配置
resources:
  requests:
    cpu: 100m
    memory: 200Mi
  limits:
    cpu: 200m
    memory: 400Mi

多租户环境下的安全考虑

在多租户Kubernetes环境中，需要额外的安全措施：

命名空间隔离：将Metrics Server部署在专用的系统命名空间
网络分段：使用网络策略限制跨命名空间通信
资源配额：设置适当的资源限制防止资源耗尽攻击
审计日志：启用API服务器审计日志监控访问模式

安全配置检查清单

使用以下清单验证Metrics Server的安全配置：

安全控制项	推荐配置	状态
非root用户运行	runAsNonRoot: true	✅
只读根文件系统	readOnlyRootFilesystem: true	✅
权限提升限制	allowPrivilegeEscalation: false	✅
Seccomp配置文件	type: RuntimeDefault	✅
能力限制	drop: ["ALL"]	✅
必要的RBAC权限	最小权限原则	✅
TLS加密通信	使用有效证书	✅
网络策略	限制入站/出站流量	⚠️
资源限制	设置requests和limits	✅
安全上下文	完整配置	✅

通过遵循这些安全最佳实践，可以确保Metrics Server在提供关键监控功能的同时，保持集群的安全性和稳定性。定期审计和更新安全配置是维护长期安全的关键。

性能调优与资源配额设置

Metrics Server作为Kubernetes集群中负责收集和提供容器资源指标的核心组件，其性能表现直接影响水平Pod自动扩缩容（HPA）和垂直Pod自动扩缩容（VPA）的响应速度和准确性。合理的性能调优和资源配额设置对于确保集群稳定运行至关重要。

资源请求与限制配置

Metrics Server的资源需求主要取决于集群规模和工作负载特征。根据官方文档，默认配置适用于最多100个节点的集群：

resources:
  requests:
    cpu: 100m
    memory: 200Mi
  # limits:
  #   cpu: 200m
  #   memory: 400Mi

对于更大规模的集群，需要按比例增加资源分配：

集群规模	CPU请求	内存请求	建议CPU限制	建议内存限制
≤100节点	100m	200Mi	200m	400Mi
101-500节点	100m + 1m/节点	200Mi + 2Mi/节点	200m + 2m/节点	400Mi + 4Mi/节点
501-1000节点	100m + 1m/节点	200Mi + 2Mi/节点	200m + 2m/节点	400Mi + 4Mi/节点
>1000节点	自定义调整	自定义调整	自定义调整	自定义调整

关键性能参数调优

Metrics Server提供了多个命令行参数用于性能调优：

args:
  - --metric-resolution=15s        # 指标收集分辨率，默认15秒
  - --kubelet-request-timeout=10s  # Kubelet请求超时时间
  - --kubelet-client-qps=20        # Kubelet客户端QPS限制
  - --kubelet-client-burst=30      # Kubelet客户端突发请求限制

指标收集分辨率优化

--metric-resolution参数控制指标收集的频率，影响HPA的响应速度：

mermaid

并发连接调优

对于大规模集群，需要调整Kubelet客户端参数：

args:
  - --kubelet-client-qps=50        # 提高QPS限制
  - --kubelet-client-burst=75      # 提高突发限制
  - --concurrent-node-scans=10     # 并发节点扫描数

节点选择与调度优化

通过合理的节点选择策略，可以优化Metrics Server的性能：

nodeSelector:
  node-role.kubernetes.io/control-plane: ""  # 调度到控制平面节点
tolerations:
- key: "node-role.kubernetes.io/control-plane"
  operator: "Exists"
  effect: "NoSchedule"
affinity:
  podAntiAffinity:
    preferredDuringSchedulingIgnoredDuringExecution:
    - weight: 100
      podAffinityTerm:
        labelSelector:
          matchExpressions:
          - key: app
            operator: In
            values:
            - metrics-server
        topologyKey: kubernetes.io/hostname

监控与自动扩缩容

配置完善的监控体系，确保能够及时发现性能瓶颈：

# Prometheus监控配置
metrics:
  enabled: true
serviceMonitor:
  enabled: true
  interval: 30s
  scrapeTimeout: 10s

关键监控指标包括：

metrics_server_kubelet_requests_total - Kubelet请求总数
metrics_server_scraper_duration_seconds - 抓取耗时
metrics_server_node_scrape_errors_total - 节点抓取错误
metrics_server_api_requests_total - API请求总数

高可用性配置的资源考量

在高可用部署模式下，每个Metrics Server实例都需要独立的资源分配：

replicas: 3
resources:
  requests:
    cpu: 100m
    memory: 200Mi
  limits:
    cpu: 200m
    memory: 400Mi
podDisruptionBudget:
  enabled: true
  minAvailable: 2

性能调优最佳实践

渐进式调整：从小规模开始测试，逐步增加负载
监控驱动：基于实际监控数据调整资源配置
定期评估：随着集群规模变化重新评估资源需求
故障转移测试：验证高可用配置的故障恢复能力
压力测试：模拟峰值负载测试系统极限

通过合理的性能调优和资源配额设置，可以确保Metrics Server在各种规模的Kubernetes集群中都能稳定高效地运行，为自动扩缩容提供可靠的指标数据支持。

总结

通过本文的全面介绍，我们深入了解了Metrics Server的部署配置、高可用方案、安全实践和性能优化策略。无论是选择YAML清单直接部署还是使用Helm Chart进行灵活配置，都需要根据实际集群规模和需求进行适当的参数调整。在生产环境中，务必实施高可用部署、严格的安全上下文配置和精细的RBAC权限管理，同时通过性能调优确保Metrics Server能够稳定高效地提供资源指标数据。定期监控和评估资源配置，随着集群规模的增长进行相应调整，是维护Metrics Server长期稳定运行的关键。

【免费下载链接】metrics-server 项目地址: https://gitcode.com/gh_mirrors/met/metrics-server

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考