FedML项目在Kubernetes上的模型服务部署指南

FedML项目在Kubernetes上的模型服务部署指南

FedML FEDML - The unified and scalable ML library for large-scale distributed training, model serving, and federated learning. FEDML Launch, a cross-cloud scheduler, further enables running any AI jobs on any GPU cloud or on-premise cluster. Built on this library, FEDML Nexus AI (https://nexus.fedml.ai) is the dedicated cloud service for generative AI FedML 项目地址: https://gitcode.com/gh_mirrors/fe/FedML

前言

在机器学习工程化实践中,模型服务化是至关重要的一环。FedML项目提供了一套完整的MLOps解决方案,支持将训练好的模型部署到Kubernetes集群中。本文将详细介绍如何在Kubernetes环境中使用FedML进行模型服务化部署。

整体工作流程

FedML的模型服务化部署包含三个主要步骤:

  1. 创建模型卡片:上传训练好的模型文件及相关配置(YAML)
  2. 绑定计算资源:将Kubernetes集群资源与FedML MLOps平台绑定
  3. 启动部署:完成部署后获取推理API

部署完成后,您将获得一个端点URL和推理API,可用于模型预测。

准备工作

1. 节点标签设置

在Kubernetes集群中,需要为不同功能的节点打上特定标签:

# 设置主节点(模型部署和调度中心)
kubectl label nodes <your-node-name> fedml-master-node=true

# 设置从节点(实际运行模型的节点)
kubectl label nodes <your-node-name> fedml-slave-node=true

# 设置推理入口节点
kubectl label nodes <your-node-name> fedml-inference-ingress=true

# 验证标签设置
kubectl get nodes --show-labels

2. 获取认证信息

从FedML MLOps平台获取您的账户ID($YourAccountId)和API密钥($YourApiKey),这些将在后续步骤中使用。

Helm安装FedML模型服务组件

1. 创建命名空间

kubectl create namespace $YourNameSpace

2. 安装从节点组件

helm install --set env.fedmlAccountId="$YourAccountId" \
             --set env.fedmlApiKey="$YourApiKey" \
             --set env.fedmlVersion="release" \
             fedml-model-premise-slave \
             fedml-model-premise-slave-latest.tgz \
             -n $YourNameSpace

3. 安装主节点组件

helm install --set env.fedmlAccountId="$YourAccountId" \
             --set env.fedmlApiKey="$YourApiKey" \
             --set env.fedmlVersion="release" \
             --set "inferenceGateway.ingress.host=$YourEndPointIngressDomainName" \
             --set "inferenceGateway.ingress.className=nginx" \
             fedml-model-premise-master \
             fedml-model-premise-master-latest.tgz \
             -n $YourNameSpace

注意:$YourEndPointIngressDomainName是您的模型服务端点URL的主机名,将用于推理API调用。

4. 多实例部署配置

如果需要多实例部署,可以添加以下参数:

主节点:

--set "autoscaling.enabled=true" --set replicaCount=$InstanceNumber

从节点:

--set "autoscaling.enabled=true" --set replicaCount=$InstanceNumber

推理入口节点:

--set "inferenceGateway.replicaCount=$InstanceNumber"

5. 配置DNS记录

  1. 在Kubernetes集群中找到名为'fedml-model-inference-gateway'的nginx ingress
  2. 获取其网关地址
  3. 在您的DNS提供商处配置CNAME记录,将$YourEndPointIngressDomainName指向该网关地址

模型打包与管理

1. 本地模型仓库操作

# 创建本地模型仓库
fedml model create -n $model_name

# 删除本地模型文件
fedml model delete -n $model_name -f $model_file_name

# 添加文件到模型仓库
fedml model add -n $model_name -p $model_file_path

# 从模型仓库移除文件
fedml model remove -n $model_name -f $model_file_name

# 列出模型仓库内容
fedml model list -n $model_name

# 打包模型为zip文件
fedml model package -n $model_name

2. 远程模型仓库操作

# 列出远程模型
fedml model list-remote -n $model_name -u $user_id -k $user_api_key

# 推送模型到远程仓库
fedml model push -n $model_name -u $user_id -k $user_api_key

# 从远程仓库拉取模型
fedml model pull -n $model_name -u $user_id -k $user_api_key

模型部署

使用以下命令部署模型:

fedml model deploy -n $model_name \
                  --on_premise \
                  -d $device_id_list \
                  -u $user_id \
                  -k $user_api_key \
                  -p $deployment_extra_params

示例:

fedml model deploy -n fedml_sample_model \
                  -u 1420 \
                  -k c9356b9c4ce44363bb66366b290201 \
                  -dt md.on_premise_device \
                  -d [178077,178076]

注意:设备ID可以在FedML MLOps平台的"计算资源"页面找到,设备列表中第一个应为主设备。

推理API使用

部署完成后,您可以使用以下格式的API进行推理:

curl -XPOST https://$YourEndPointIngressDomainName/inference/api/v1/predict \
     -H 'accept: application/json' \
     -d'{
          "model_version": "v11-Thu Jan 05 08:20:24 GMT 2023",
          "model_name": "model_340_18_fedml_test_model_v11-Thu-Jan-05-08-20-24-GMT-2023",
          "data": "This is our test data. Please fill in here with your real data.",
          "end_point_id": 336,
          "model_id": 18,
          "token": "2e081ef115d04ee8adaffe5c1d0bfbac"
       }'

常见问题解答

Q: 是否支持自动扩展?

A: 是的,可以通过helm upgrade命令实现。例如:

helm upgrade --set "autoscaling.enabled=true" \
             --set replicaCount=$InstanceNumber \
             fedml-model-premise-master \
             fedml-model-premise-master-latest.tgz \
             -n $YourNameSpace

Q: 推理端点是否支持私有IP?

A: 是的,支持私有IP。

Q: 如果k8s服务没有公网IP,部署会受影响吗?

A: 不会受影响。部署过程中不需要从FedML MLOps平台主动访问您的k8s集群,而是由您的k8s集群主动访问FedML MLOps平台。

总结

通过FedML在Kubernetes上的模型服务部署方案,您可以轻松地将训练好的模型部署到生产环境,并获得高可用、可扩展的推理服务。本文详细介绍了从节点配置、组件安装到模型部署的完整流程,希望能帮助您顺利完成模型服务化工作。

FedML FEDML - The unified and scalable ML library for large-scale distributed training, model serving, and federated learning. FEDML Launch, a cross-cloud scheduler, further enables running any AI jobs on any GPU cloud or on-premise cluster. Built on this library, FEDML Nexus AI (https://nexus.fedml.ai) is the dedicated cloud service for generative AI FedML 项目地址: https://gitcode.com/gh_mirrors/fe/FedML

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

束娣妙Hanna

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值