面向大规模AI在线推理的可靠性设计

最新推荐文章于 2025-11-11 14:20:22 发布

原创

最新推荐文章于 2025-11-11 14:20:22 发布 · 1.5k 阅读

CC 4.0 BY-SA版权

文章标签：

本文探讨了AI在线推理的挑战，包括实时扩缩容和负载均衡，并介绍了UAI-Inference如何通过Serverless架构和Docker容器技术提供高可用、弹性伸缩的服务。该系统支持多种AI框架，具有资源隔离、性能监控和动态调整计算资源的能力，确保大规模推理服务的稳定性和效率。

在 AI 项目中，大多时候开发者的关注点都集中在如何进行训练、如何调优模型、如何达到满意的识别率上面。但对于一个完整项目来说，通常是需求推动项目，同时，项目也最终要落到实际业务中来满足需求。

对于常用的 AI 训练和机器学习工具如 TensorFlow，它本身也提供了 AI Serving 工具 TensorFlow Serving。利用此工具，可以将训练好的模型简单保存为模型文件，然后通过的脚本在 TensorFlow Serving 加载模型，输入待推理数据，得到推理结果。

但与拥有较固定计算周期和运行时长的 AI 训练不同，AI 推理的调用会随着业务的涨落而涨落，经常出现类似白天高、夜间低的现象。且在大规模高并发的节点需求情况下，常规的部署方案，明显无法满足此类需求，此时需要使用更专业的 AI 推理模型和扩缩容、负载均衡等技术完成预测推理。

UAI-Inference 采用类似Serverless的架构，通过请求调度算法、定制扩缩容策略，自动完成AI请求的负载均衡，实行节点动态扩容和回收，可提供数万的AI在线推理服务节点。

某AI在线推理一天内的请求访问情况

AI推理（Inference）的在线执行有两大关键因素：一是通过 GPU/CPU 对数据进行快速决策，二是对访问请求的实时响应。下图为某一 AI 在线推理场景 24 小时内的资源使用情况，其中，横轴为时间、纵轴为用户资源请求量，橙色线现表示资源配置情况。

凌晨 00:00-8:00 点，用户基本处于睡眠状态，此刻的资源请求较少，闲置资源较多；8:00 以后，手机等设备使用量增多，推理访问请求逐渐上升；直至中午，设备访问达到高峰，请求量超过设定的资源量，系统纺问出现延迟；之后在线使用量降低，部分资源又将闲置……

可以看到，一天内不同的时间段，访问量会随着用户作息规律而出现相应的起伏，若是将资源配置设置过小，则会导致计算资