Azure AKS中ama-metrics-operator-targets内存泄漏问题分析与解决方案-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_07976/article/details/148647546

Azure AKS中ama-metrics-operator-targets内存泄漏问题分析与解决方案

AKS Azure Kubernetes Service 项目地址: https://gitcode.com/gh_mirrors/ak/AKS

问题背景

在Azure Kubernetes Service(AKS)环境中，许多用户报告了ama-metrics-operator-targets容器存在内存持续增长的问题。该组件是Azure托管Prometheus监控系统的一部分，负责指标收集和目标分配。正常情况下，该容器应保持相对稳定的内存使用量，但近期出现了内存持续增长直至被OOM(内存不足)终止的现象。

问题表现

从用户提供的监控图表和描述来看，该问题具有以下典型特征：

内存使用量呈现线性增长趋势，从初始的60-70MB逐渐攀升至2GB左右
当内存达到节点限制时，容器会被OOM Killer终止
容器重启后内存使用量恢复正常，但随后再次开始增长
问题首次出现时间集中在2024年8月中下旬
影响范围广泛，多个区域、不同AKS版本(1.28.x至1.30.x)的集群均报告了相同问题

技术影响

这种内存泄漏问题对生产环境造成了多方面的影响：

系统节点池资源被大量占用，可能导致节点资源紧张
频繁的OOM终止可能导致监控数据丢失或中断
在极端情况下，可能触发节点重启，影响集群稳定性
需要额外运维开销来监控和处理此问题

临时解决方案

在等待官方修复期间，社区用户提出了几种临时解决方案：

1. 手动重启相关Pod

通过删除所有以"ama-"开头的Pod，系统会自动重建这些Pod，可以暂时释放被占用的内存。执行命令如下：

kubectl delete pods -n kube-system -l rsName=ama-metrics-operator-targets

2. 创建定时重启的CronJob

更自动化的方法是创建一个每天执行一次的CronJob，自动重启有问题的Pod。以下是完整的配置示例：

apiVersion: v1
kind: ServiceAccount
metadata:
  name: kill-ama-metrics-operator-targets-cj-sa
  namespace: kube-system
---
apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  namespace: kube-system
  name: kill-ama-metrics-operator-targets-role
rules:
- apiGroups: [""]
  resources: ["pods"]
  verbs: ["get", "list", "delete"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: kill-ama-metrics-operator-targets-cj-sa-binding
  namespace: kube-system
subjects:
  - kind: ServiceAccount
    name: kill-ama-metrics-operator-targets-cj-sa
    namespace: kube-system
roleRef:
  kind: Role
  name: kill-ama-metrics-operator-targets-role
  apiGroup: rbac.authorization.k8s.io
---
apiVersion: batch/v1
kind: CronJob
metadata:
  name: kill-ama-metrics-operator-targets-cj
  namespace: kube-system
spec:
  schedule: "0 6 * * *"
  jobTemplate:
    spec:
      template:
        spec:
          serviceAccountName: kill-ama-metrics-operator-targets-cj-sa
          containers:
          - name: kill-pod
            image: bitnami/kubectl:latest
            command:
            - /bin/sh
            - -c
            - |
              POD=$(kubectl get pods -n kube-system -l rsName=ama-metrics-operator-targets -o jsonpath='{.items[0].metadata.name}')
              kubectl delete pod $POD -n kube-system
          restartPolicy: OnFailure
  successfulJobsHistoryLimit: 1
  failedJobsHistoryLimit: 1