AKS集群升级后Helm删除资源残留问题排查与解决-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_07324/article/details/148624393

AKS集群升级后Helm删除资源残留问题排查与解决

AKS Azure Kubernetes Service 项目地址: https://gitcode.com/gh_mirrors/ak/AKS

在Kubernetes运维过程中，资源清理不彻底是常见的疑难问题之一。本文针对Azure Kubernetes Service(AKS)从1.29版本升级到1.30.7后出现的Helm删除操作残留问题，深入分析其根本原因并提供解决方案。

问题现象

当用户将AKS集群从Kubernetes 1.29升级到1.30.7版本后，执行helm delete命令时出现异常行为：

Helm能够成功删除Deployment资源
但关联的ReplicaSet和Pod资源未被清理
这些资源最终成为"孤儿资源"(orphaned resources)
相同操作在AWS EKS 1.30环境中表现正常

问题定位

通过深入排查，我们发现问题的根源在于集群中存在故障的Webhook配置。具体表现为：

垃圾回收机制失效：Kubernetes的垃圾回收器(Garbage Collector)负责处理对象间的级联删除关系。当父对象(如Deployment)被删除时，垃圾回收器会自动清理其依赖的子对象(如ReplicaSet和Pod)。
Webhook拦截异常：在AKS 1.30.7环境中，某个自定义资源定义(CRD)配置的Webhook出现了故障，导致垃圾回收过程中的拦截请求失败。
控制平面日志分析：通过检查控制平面组件(特别是controller-manager)的详细日志，可以观察到Webhook调用超时或返回错误的状态信息。

解决方案

针对该问题的修复步骤如下：

检查Webhook配置：

kubectl get validatingwebhookconfigurations,mutatingwebhookconfigurations

临时禁用问题Webhook：

kubectl patch validatingwebhookconfiguration <name> --type='json' -p='[{"op": "replace", "path": "/webhooks/0/failurePolicy", "value": "Ignore"}]'

清理残留资源：

# 手动删除关联的ReplicaSet
kubectl delete rs --selector=app.kubernetes.io/instance=<release-name>

# 清理残留Pod
kubectl delete pods --selector=app.kubernetes.io/instance=<release-name>

修复Webhook服务：
- 检查Webhook后端服务的可用性
- 验证证书和网络连接
- 确保服务能够及时响应请求

最佳实践建议

为避免类似问题，建议采取以下预防措施：

升级前检查：在集群升级前，使用kubectl get --raw /readyz?verbose全面检查组件健康状况。
Webhook设计原则：
- 实现幂等性处理
- 设置合理的超时时间
- 添加适当的就绪检查
监控配置：
- 对Webhook调用失败率设置告警
- 监控垃圾回收相关指标

Helm操作验证：

helm delete --dry-run
kubectl get all --show-labels

总结

该案例展示了Kubernetes控制平面组件间的微妙交互关系。Webhook作为扩展机制虽然强大，但配置不当可能导致核心功能异常。运维人员应当建立完善的升级检查清单和监控体系，特别是在处理关键业务集群时，确保所有扩展组件与新版本Kubernetes的兼容性。

对于类似问题，建议优先检查控制平面日志，重点关注垃圾回收器和准入控制组件的运行状态，这往往是解决资源管理问题的关键切入点。

AKS Azure Kubernetes Service 项目地址: https://gitcode.com/gh_mirrors/ak/AKS

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考