11、Ray在模型服务与工作流管理中的应用

最新推荐文章于 2025-10-26 10:51:45 发布

cuda7parallel

最新推荐文章于 2025-10-26 10:51:45 发布

阅读量28

点赞数

CC 4.0 BY-SA版权

分类专栏：用Ray解锁Python新维度文章标签： Ray 模型服务工作流管理

本文链接：https://blog.youkuaiyun.com/cuda7parallel/article/details/151308037

用Ray解锁Python新维度专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Ray在模型服务与工作流管理中的应用

1. Ray微服务框架在模型服务中的应用

Ray微服务框架为模型服务提供了坚实基础，能满足模型服务的主要需求。部署可以通过HTTP或直接使用Python进行暴露，后一种方式允许与任何所需的传输方式集成。简单的重新部署可以在不重启Ray集群和中断利用模型服务的应用程序的情况下更新模型，使用部署组合能轻松实现任何部署策略。

1.1 推测式模型服务

推测式模型服务是推测执行的一种应用，计算机系统会执行可能不需要的任务，在确定是否真正需要之前就完成工作，以便在需要时能立即获得结果。推测执行在模型服务中很重要，因为它为机器服务应用提供了以下特性：
- 保证执行时间 ：假设有多个模型，其中最快的模型提供固定的执行时间，只要该时间大于最简单模型的执行时间，就可以实现具有固定执行时间上限的模型服务。
- 基于共识的模型服务 ：假设有多个模型，可以实现一种模型服务，使预测结果是大多数模型返回的结果。
- 基于质量的模型服务 ：假设有一个评估模型服务结果质量的指标，这种方法允许选择质量最好的结果。

下面是使用Ray微服务框架实现基于共识的模型服务的示例：

import asyncio
import ray
from ray import serve

@serve.deployment(route_prefix="/speculative")
class Speculative:
    def __init__(s

会员秒杀 ¥9.9 重磅福利

超级会员免费看