Ray在模型服务与工作流管理中的应用
1. Ray微服务框架在模型服务中的应用
Ray微服务框架为模型服务提供了坚实基础,能满足模型服务的主要需求。部署可以通过HTTP或直接使用Python进行暴露,后一种方式允许与任何所需的传输方式集成。简单的重新部署可以在不重启Ray集群和中断利用模型服务的应用程序的情况下更新模型,使用部署组合能轻松实现任何部署策略。
1.1 推测式模型服务
推测式模型服务是推测执行的一种应用,计算机系统会执行可能不需要的任务,在确定是否真正需要之前就完成工作,以便在需要时能立即获得结果。推测执行在模型服务中很重要,因为它为机器服务应用提供了以下特性:
- 保证执行时间 :假设有多个模型,其中最快的模型提供固定的执行时间,只要该时间大于最简单模型的执行时间,就可以实现具有固定执行时间上限的模型服务。
- 基于共识的模型服务 :假设有多个模型,可以实现一种模型服务,使预测结果是大多数模型返回的结果。
- 基于质量的模型服务 :假设有一个评估模型服务结果质量的指标,这种方法允许选择质量最好的结果。
下面是使用Ray微服务框架实现基于共识的模型服务的示例:
import asyncio
import ray
from ray import serve
@serve.deployment(route_prefix="/speculative")
class Speculative:
def __init__(s
超级会员免费看
订阅专栏 解锁全文
1266

被折叠的 条评论
为什么被折叠?



