Ray Serve 自动扩缩容深度指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00898/article/details/148359854

Ray Serve 自动扩缩容深度指南

ray ray-project/ray: 是一个分布式计算框架，它没有使用数据库。适合用于大规模数据处理和机器学习任务的开发和实现，特别是对于需要使用分布式计算框架的场景。特点是分布式计算框架、无数据库。项目地址: https://gitcode.com/gh_mirrors/ra/ray

前言

在现代机器学习服务部署中，流量往往呈现明显的波峰波谷特征。Ray Serve 作为 Ray 项目的分布式服务部署框架，提供了强大的自动扩缩容能力，能够根据实时流量动态调整服务资源。本文将深入解析 Ray Serve 的自动扩缩容机制，帮助开发者构建弹性高效的机器学习服务。

基础概念解析

在深入自动扩缩容之前，我们需要明确几个核心概念：

部署(Deployment)：Ray Serve 中的基本服务单元，封装了业务逻辑或模型推理代码
副本(Replica)：部署的运行实例，每个副本是一个独立的进程
请求队列：Ray Serve 内部维护的请求缓冲机制，用于平衡副本间负载

手动扩缩容 vs 自动扩缩容

手动扩缩容方案

对于流量模式可预测的服务，手动指定副本数是简单有效的方案：

from ray import serve

@serve.deployment(num_replicas=4)  # 固定4个副本
class MyModel:
    def __call__(self, request):
        return process_request(request)

适用场景：

流量模式稳定可预测
服务需要保持最低性能基线
资源预算固定

自动扩缩容方案

当面对突发流量或不可预测的访问模式时，自动扩缩容展现出明显优势：

@serve.deployment(
    num_replicas="auto",
    autoscaling_config={
        "target_ongoing_requests": 2,
        "min_replicas": 1,
        "max_replicas": 10
    }
)
class MyModel:
    ...

自动扩缩容核心参数详解

关键配置参数

target_ongoing_requests (目标并发请求数)
- 每个副本平均处理的请求数
- 值越小代表副本负载越轻，响应延迟越低
- 典型值范围：1-5
max_ongoing_requests (最大并发请求数)
- 单个副本能承受的最大请求数
- 超过此值新请求将被排队或拒绝
- 应大于target_ongoing_requests
min_replicas/max_replicas (副本数范围)
- 确保服务始终有基本容量
- 防止资源过度消耗

配置建议

| 参数类型 | 短请求(<100ms) | 长请求(>1s) | |---------|--------------|------------| | target_ongoing_requests | 3-5 | 1-2 | | max_ongoing_requests | 10-20 | 3-5 |

实战案例：ResNet50图像服务

让我们通过一个图像分类服务的例子，观察自动扩缩容的实际表现。

服务定义

from ray import serve
from torchvision.models import resnet50
import torch

@serve.deployment(
    num_replicas="auto",
    autoscaling_config={
        "target_ongoing_requests": 2,
        "min_replicas": 1,
        "max_replicas": 8
    }
)
class ResNetModel:
    def __init__(self):
        self.model = resnet50(pretrained=True).eval()
        
    async def __call__(self, request):
        image_tensor = preprocess(request)
        with torch.no_grad():
            return self.model(image_tensor)