FedML项目在Kubernetes上的模型服务部署指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00657/article/details/148552178

FedML项目在Kubernetes上的模型服务部署指南

FedML FEDML - The unified and scalable ML library for large-scale distributed training, model serving, and federated learning. FEDML Launch, a cross-cloud scheduler, further enables running any AI jobs on any GPU cloud or on-premise cluster. Built on this library, FEDML Nexus AI (https://nexus.fedml.ai) is the dedicated cloud service for generative AI 项目地址: https://gitcode.com/gh_mirrors/fe/FedML

前言

在机器学习工程化实践中，模型服务化是至关重要的一环。FedML项目提供了一套完整的MLOps解决方案，支持将训练好的模型部署到Kubernetes集群中。本文将详细介绍如何在Kubernetes环境中使用FedML进行模型服务化部署。

整体工作流程

FedML的模型服务化部署包含三个主要步骤：

创建模型卡片：上传训练好的模型文件及相关配置(YAML)
绑定计算资源：将Kubernetes集群资源与FedML MLOps平台绑定
启动部署：完成部署后获取推理API

部署完成后，您将获得一个端点URL和推理API，可用于模型预测。

准备工作

1. 节点标签设置

在Kubernetes集群中，需要为不同功能的节点打上特定标签：

# 设置主节点（模型部署和调度中心）
kubectl label nodes <your-node-name> fedml-master-node=true

# 设置从节点（实际运行模型的节点）
kubectl label nodes <your-node-name> fedml-slave-node=true

# 设置推理入口节点
kubectl label nodes <your-node-name> fedml-inference-ingress=true

# 验证标签设置
kubectl get nodes --show-labels

2. 获取认证信息

从FedML MLOps平台获取您的账户ID($YourAccountId)和API密钥($YourApiKey)，这些将在后续步骤中使用。

Helm安装FedML模型服务组件

1. 创建命名空间

kubectl create namespace $YourNameSpace

2. 安装从节点组件

helm install --set env.fedmlAccountId="$YourAccountId" \
             --set env.fedmlApiKey="$YourApiKey" \
             --set env.fedmlVersion="release" \
             fedml-model-premise-slave \
             fedml-model-premise-slave-latest.tgz \
             -n $YourNameSpace

3. 安装主节点组件

helm install --set env.fedmlAccountId="$YourAccountId" \
             --set env.fedmlApiKey="$YourApiKey" \
             --set env.fedmlVersion="release" \
             --set "inferenceGateway.ingress.host=$YourEndPointIngressDomainName" \
             --set "inferenceGateway.ingress.className=nginx" \
             fedml-model-premise-master \
             fedml-model-premise-master-latest.tgz \
             -n $YourNameSpace

注意：$YourEndPointIngressDomainName是您的模型服务端点URL的主机名，将用于推理API调用。

4. 多实例部署配置

如果需要多实例部署，可以添加以下参数：

主节点：

--set "autoscaling.enabled=true" --set replicaCount=$InstanceNumber

从节点：

--set "autoscaling.enabled=true" --set replicaCount=$InstanceNumber

推理入口节点：

--set "inferenceGateway.replicaCount=$InstanceNumber"

5. 配置DNS记录

在Kubernetes集群中找到名为'fedml-model-inference-gateway'的nginx ingress
获取其网关地址
在您的DNS提供商处配置CNAME记录，将$YourEndPointIngressDomainName指向该网关地址

模型打包与管理

1. 本地模型仓库操作

# 创建本地模型仓库
fedml model create -n $model_name

# 删除本地模型文件
fedml model delete -n $model_name -f $model_file_name

# 添加文件到模型仓库
fedml model add -n $model_name -p $model_file_path

# 从模型仓库移除文件
fedml model remove -n $model_name -f $model_file_name

# 列出模型仓库内容
fedml model list -n $model_name

# 打包模型为zip文件
fedml model package -n $model_name

2. 远程模型仓库操作

# 列出远程模型
fedml model list-remote -n $model_name -u $user_id -k $user_api_key

# 推送模型到远程仓库
fedml model push -n $model_name -u $user_id -k $user_api_key

# 从远程仓库拉取模型
fedml model pull -n $model_name -u $user_id -k $user_api_key

模型部署

使用以下命令部署模型：

fedml model deploy -n $model_name \
                  --on_premise \
                  -d $device_id_list \
                  -u $user_id \
                  -k $user_api_key \
                  -p $deployment_extra_params

示例：

fedml model deploy -n fedml_sample_model \
                  -u 1420 \
                  -k c9356b9c4ce44363bb66366b290201 \
                  -dt md.on_premise_device \
                  -d [178077,178076]

注意：设备ID可以在FedML MLOps平台的"计算资源"页面找到，设备列表中第一个应为主设备。

推理API使用

部署完成后，您可以使用以下格式的API进行推理：

curl -XPOST https://$YourEndPointIngressDomainName/inference/api/v1/predict \
     -H 'accept: application/json' \
     -d'{
          "model_version": "v11-Thu Jan 05 08:20:24 GMT 2023",
          "model_name": "model_340_18_fedml_test_model_v11-Thu-Jan-05-08-20-24-GMT-2023",
          "data": "This is our test data. Please fill in here with your real data.",
          "end_point_id": 336,
          "model_id": 18,
          "token": "2e081ef115d04ee8adaffe5c1d0bfbac"
       }'

常见问题解答

Q: 是否支持自动扩展？

A: 是的，可以通过helm upgrade命令实现。例如：

helm upgrade --set "autoscaling.enabled=true" \
             --set replicaCount=$InstanceNumber \
             fedml-model-premise-master \
             fedml-model-premise-master-latest.tgz \
             -n $YourNameSpace

Q: 推理端点是否支持私有IP？

A: 是的，支持私有IP。

Q: 如果k8s服务没有公网IP，部署会受影响吗？

A: 不会受影响。部署过程中不需要从FedML MLOps平台主动访问您的k8s集群，而是由您的k8s集群主动访问FedML MLOps平台。