深入探索模型服务与监控:Ray Serve与ML可观测性基础设施
1. Ray Serve简介
Ray Serve是一个基于Ray构建的开源、灵活、高效且可扩展的模型服务库。Ray是用于扩展AI和Python应用程序的开源统一框架。Ray Serve提供了一个简单的Python接口来服务机器学习模型,借助Ray Core库提供的分布式计算框架和强大的抽象原语,能够支持大量的推理工作负载。
Ray Serve具有以下三个主要价值主张:
- 提供Python原生方式构建端到端分布式模型服务应用程序,从本地测试到生产部署都能快速迭代。
- 提供一流的多模型推理支持。
- 提供灵活的扩展和资源分配。
2. 核心概念:部署与应用
在Ray Serve中有两个核心概念:部署(deployment)和应用(application)。
- 部署 :本质上是一个可部署的模型服务单元,可以包含用Python编写的任何逻辑,如业务逻辑、模型加载和推理逻辑、特征提取逻辑以及推理前后处理逻辑。通过使用 @serve.deployment 装饰器修饰Python类定义来定义部署。在运行时,该类的一个或多个副本会在Ray Serve集群的独立进程中启动,进程数量可以根据传入的请求负载进行上下调整或自动扩展。
- 应用 :由一个或多个部署组成,是Ray Serve集群中的升级单元。通常,应用中的一组部署协同工作,以满足模型服务应用程序的需求,如图像处理或音频转录。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



