基于 Kubernetes 的模型服务水平扩展与自动伸缩体系(2025 技术实践指南) 一、核心机制与架构设计 Kubernetes 实现模型服务自动伸缩的核心在于 两层弹性模型:应用层水平伸缩(HPA)与资源层节点伸缩(Cluster Autoscaler)的协同工作。两者的关系可通过以下架构图呈现: Pod副本数调整