FedML项目在Kubernetes上的模型服务部署指南
前言
在机器学习工程化实践中,模型服务化是至关重要的一环。FedML项目提供了一套完整的MLOps解决方案,支持将训练好的模型部署到Kubernetes集群中。本文将详细介绍如何在Kubernetes环境中使用FedML进行模型服务化部署。
整体工作流程
FedML的模型服务化部署包含三个主要步骤:
- 创建模型卡片:上传训练好的模型文件及相关配置(YAML)
- 绑定计算资源:将Kubernetes集群资源与FedML MLOps平台绑定
- 启动部署:完成部署后获取推理API
部署完成后,您将获得一个端点URL和推理API,可用于模型预测。
准备工作
1. 节点标签设置
在Kubernetes集群中,需要为不同功能的节点打上特定标签:
# 设置主节点(模型部署和调度中心)
kubectl label nodes <your-node-name> fedml-master-node=true
# 设置从节点(实际运行模型的节点)
kubectl label nodes <your-node-name> fedml-slave-node=true
# 设置推理入口节点
kubectl label nodes <your-node-name> fedml-inference-ingress=true
# 验证标签设置
kubectl get nodes --show-labels
2. 获取认证信息
从FedML MLOps平台获取您的账户ID($YourAccountId)和API密钥($YourApiKey),这些将在后续步骤中使用。
Helm安装FedML模型服务组件
1. 创建命名空间
kubectl create namespace $YourNameSpace
2. 安装从节点组件
helm install --set env.fedmlAccountId="$YourAccountId" \
--set env.fedmlApiKey="$YourApiKey" \
--set env.fedmlVersion="release" \
fedml-model-premise-slave \
fedml-model-premise-slave-latest.tgz \
-n $YourNameSpace
3. 安装主节点组件
helm install --set env.fedmlAccountId="$YourAccountId" \
--set env.fedmlApiKey="$YourApiKey" \
--set env.fedmlVersion="release" \
--set "inferenceGateway.ingress.host=$YourEndPointIngressDomainName" \
--set "inferenceGateway.ingress.className=nginx" \
fedml-model-premise-master \
fedml-model-premise-master-latest.tgz \
-n $YourNameSpace
注意:$YourEndPointIngressDomainName是您的模型服务端点URL的主机名,将用于推理API调用。
4. 多实例部署配置
如果需要多实例部署,可以添加以下参数:
主节点:
--set "autoscaling.enabled=true" --set replicaCount=$InstanceNumber
从节点:
--set "autoscaling.enabled=true" --set replicaCount=$InstanceNumber
推理入口节点:
--set "inferenceGateway.replicaCount=$InstanceNumber"
5. 配置DNS记录
- 在Kubernetes集群中找到名为'fedml-model-inference-gateway'的nginx ingress
- 获取其网关地址
- 在您的DNS提供商处配置CNAME记录,将$YourEndPointIngressDomainName指向该网关地址
模型打包与管理
1. 本地模型仓库操作
# 创建本地模型仓库
fedml model create -n $model_name
# 删除本地模型文件
fedml model delete -n $model_name -f $model_file_name
# 添加文件到模型仓库
fedml model add -n $model_name -p $model_file_path
# 从模型仓库移除文件
fedml model remove -n $model_name -f $model_file_name
# 列出模型仓库内容
fedml model list -n $model_name
# 打包模型为zip文件
fedml model package -n $model_name
2. 远程模型仓库操作
# 列出远程模型
fedml model list-remote -n $model_name -u $user_id -k $user_api_key
# 推送模型到远程仓库
fedml model push -n $model_name -u $user_id -k $user_api_key
# 从远程仓库拉取模型
fedml model pull -n $model_name -u $user_id -k $user_api_key
模型部署
使用以下命令部署模型:
fedml model deploy -n $model_name \
--on_premise \
-d $device_id_list \
-u $user_id \
-k $user_api_key \
-p $deployment_extra_params
示例:
fedml model deploy -n fedml_sample_model \
-u 1420 \
-k c9356b9c4ce44363bb66366b290201 \
-dt md.on_premise_device \
-d [178077,178076]
注意:设备ID可以在FedML MLOps平台的"计算资源"页面找到,设备列表中第一个应为主设备。
推理API使用
部署完成后,您可以使用以下格式的API进行推理:
curl -XPOST https://$YourEndPointIngressDomainName/inference/api/v1/predict \
-H 'accept: application/json' \
-d'{
"model_version": "v11-Thu Jan 05 08:20:24 GMT 2023",
"model_name": "model_340_18_fedml_test_model_v11-Thu-Jan-05-08-20-24-GMT-2023",
"data": "This is our test data. Please fill in here with your real data.",
"end_point_id": 336,
"model_id": 18,
"token": "2e081ef115d04ee8adaffe5c1d0bfbac"
}'
常见问题解答
Q: 是否支持自动扩展?
A: 是的,可以通过helm upgrade
命令实现。例如:
helm upgrade --set "autoscaling.enabled=true" \
--set replicaCount=$InstanceNumber \
fedml-model-premise-master \
fedml-model-premise-master-latest.tgz \
-n $YourNameSpace
Q: 推理端点是否支持私有IP?
A: 是的,支持私有IP。
Q: 如果k8s服务没有公网IP,部署会受影响吗?
A: 不会受影响。部署过程中不需要从FedML MLOps平台主动访问您的k8s集群,而是由您的k8s集群主动访问FedML MLOps平台。
总结
通过FedML在Kubernetes上的模型服务部署方案,您可以轻松地将训练好的模型部署到生产环境,并获得高可用、可扩展的推理服务。本文详细介绍了从节点配置、组件安装到模型部署的完整流程,希望能帮助您顺利完成模型服务化工作。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考