Ray项目实战：从开发到部署机器学习服务的完整指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00294/article/details/148359977

Ray项目实战：从开发到部署机器学习服务的完整指南

ray ray-project/ray: 是一个分布式计算框架，它没有使用数据库。适合用于大规模数据处理和机器学习任务的开发和实现，特别是对于需要使用分布式计算框架的场景。特点是分布式计算框架、无数据库。项目地址: https://gitcode.com/gh_mirrors/ra/ray

前言

Ray Serve作为Ray项目的核心组件之一，为机器学习模型提供了高效的服务化能力。本文将详细介绍如何将一个机器学习模型转换为Ray Serve应用，并在本地测试后部署到生产环境。

1. 模型服务化基础

1.1 示例模型解析

我们以一个文本翻译模型为例，该模型基于Hugging Face的t5-small预训练模型，能够将英文文本翻译为法文。核心功能包括：

class Translator:
    def __init__(self):
        # 加载预训练模型
        self.model = pipeline("translation_en_to_fr", model="t5-small")

    def translate(self, text: str) -> str:
        # 执行翻译并提取结果
        translation = self.model(text)
        return translation[0]["translation_text"]

这个基础模型可以直接运行，输入"Hello world!"会输出法文翻译"Bonjour Monde!"。

1.2 转换为Ray Serve应用

将普通模型转换为Ray Serve应用需要进行三个关键改造：

添加必要的导入：
- from fastapi import FastAPI
- from ray import serve

使用装饰器标注服务类：

app = FastAPI()

@serve.deployment(num_replicas=2, ray_actor_options={"num_cpus": 0.2})
@serve.ingress(app)
class Translator:
    # ...原有代码...

创建应用绑定：
```
translator_app = Translator.bind()
```

2. 本地测试与验证

2.1 启动服务

使用Ray Serve CLI命令启动服务：

serve run model:translator_app

这个命令会：

启动Ray集群（如果尚未运行）
部署翻译服务
监听8000端口

2.2 测试服务功能

可以通过HTTP POST请求测试服务：

import requests

response = requests.post(
    "http://localhost:8000/translate",
    json={"text": "Hello world!"}
)
print(response.text)  # 输出: "Bonjour Monde!"

2.3 服务状态监控

使用以下命令查看服务状态：

serve status

输出示例显示：

代理状态：健康
应用状态：运行中
部署副本数：2个（均正常运行）

3. 生产环境部署准备

3.1 生成配置文件

使用serve build命令生成生产环境配置：

serve build model:translator_app -o config.yaml

生成的YAML文件包含：

代理配置（位置、HTTP/GRPC端口）
应用配置（路由前缀、导入路径）
部署细节（副本数、资源需求）

3.2 配置文件详解

典型配置文件结构：

applications:
- name: app1
  import_path: model:translator_app
  deployments:
  - name: Translator
    num_replicas: 2
    ray_actor_options:
      num_cpus: 0.2
      num_gpus: 0.0

关键参数说明：

num_replicas：控制服务副本数量，提高并发能力
ray_actor_options：定义每个副本的资源配额

4. 生产环境部署

4.1 Kubernetes部署

建议使用KubeRay Operator进行Kubernetes部署，主要优势包括：

零停机升级
自动故障恢复
状态监控报告

4.2 高可用配置

生产环境应考虑：

头节点容错：防止单点故障
自动扩缩容：根据负载动态调整资源
健康检查：确保服务可用性

5. 监控与运维

5.1 内置监控能力

Ray提供多种监控方式：

Ray Dashboard：可视化集群和服务状态
内置指标：请求延迟、吞吐量等
日志聚合：集中查看服务日志

5.2 自定义监控

可以扩展监控能力：

from ray import serve
from ray.serve import metrics

@serve.deployment
class MyDeployment:
    def __init__(self):
        self.counter = metrics.Counter(
            "my_counter",
            description="Count of requests",
            tag_keys=("route",))
    
    def __call__(self, request):
        self.counter.inc(tags={"route": request.url.path})