解决Kubernetes 集群中单个 Pod 占满内存导致节点压力过大的问题

最新推荐文章于 2025-10-24 09:36:40 发布

原创最新推荐文章于 2025-10-24 09:36:40 发布 · 967 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#kubernetes #容器 #云原生

1. 设置资源限制和请求

在 Kubernetes 中，设置每个容器的 resources.requests 和 resources.limits 是非常重要的。这样，Kubernetes 可以根据容器的资源需求进行合理的调度和限制，避免单个 Pod 消耗过多的内存导致节点崩溃。

requests：容器所需的最低资源量，Kubernetes 会基于这个值进行调度。
limits：容器可以使用的最大资源量，一旦超过此值，Kubernetes 会根据策略来处理，比如 OOM（内存溢出）时终止容器。

示例：

resources:
  requests:
    memory: "500Mi"
    cpu: "500m"
  limits:
    memory: "1Gi"
    cpu: "1"

2. 节点压力驱逐（Node Pressure Eviction）

Kubernetes 会根据节点的资源压力（如内存、CPU）来驱逐 Pods。当节点的内存压力过大时，Kubernetes 会优先驱逐那些设置了较低优先级的 Pods。

你可以通过调整节点的驱逐策略来应对内存压力。通过设置 Eviction 策略（如 memoryPressure），你可以控制当节点内存不足时，Kubernetes 会自动驱逐哪些 Pods。
示例：

evictionHard:
  memory.available: "200Mi"
evictionSoft:
  memory.available: "500Mi"
evictionSoftGracePeriod:
  memory.available: "1m"

这表示当节点的可用内存低于 200Mi 时，Kubernetes 会强制驱逐 Pods；当低于 500Mi 时，会采取软驱逐策略。

3. 监控内存使用情况

你可以通过 Prometheus 和 Grafana 等监控工具来实时监控集群的内存使用情况。Prometheus 可以抓取 Kubernetes 的监控指标，然后在 Grafana 中展示内存的百分比使用情况。

例如，你可以通过 Prometheus 的查询来查看节点的内存使用率：

prometheus

node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100

这样可以显示内存的使用百分比，帮助你及时发现内存占满的节点。

4. 使用 Resource Requests 和 QoS（Quality of Service）

Kubernetes 根据资源请求和限制的设置来决定 Pod 的 QoS 类别。通过合理配置资源请求和限制，Kubernetes 可以优先保证高优先级的 Pod 在内存不足时不被驱逐。

Guaranteed：如果 Pod 设置了资源的 requests 和 limits，并且它们相等，则该 Pod 具有保证级别的 QoS。
Burstable：如果 Pod 设置了 requests 和 limits，但它们不相等，则该 Pod 具有突发级别的 QoS。
BestEffort：如果没有设置 requests 或 limits，则该 Pod 为最佳努力级别。

5. Pod 自动扩展

你还可以设置 Horizontal Pod Autoscaler (HPA) 来根据负载自动扩展 Pod 数量，从而减少单个 Pod 的内存负担，避免节点压力过大。

例如：

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: myapp-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: myapp
  minReplicas: 2
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: memory
      target:
        type: Utilization
        averageUtilization: 80