部署模型时,您可以根据自身需求选择模型来源以及部署模型的平台。本文以Qwen1.5-4B-Chat模型、GPU类型为T4卡为例,演示如何在ACK中快速部署ModelScope模型、HuggingFace模型及本地模型。
模型介绍
ModelScope
ModelScope汇集了行业领先的预训练模型,可以减少开发者的重复研发成本,提供绿色环保、开源开放的AI开发环境和模型服务。ModelScope平台以开源的方式提供了诸多优质模型,您可以在ModelScope免费体验与下载使用。更多信息,请参见ModelScope概览介绍。
HuggingFace
HuggingFace拥有超过350,000个模型、75,000个数据集以及150,000个演示应用程序的平台,所有模型、数据集及应用程序均开源,您可以在HuggingFace上共同构建机器学习项目。更多信息,请参见HuggingFace文档。
前提条件
-
已创建包含GPU节点的ACK集群Pro版,且集群版本为1.22及以上,GPU节点显存需为16GB及以上。具体操作,请参见创建ACK托管集群。
建议GPU节点使用525版本驱动,您可以通过为GPU节点池添加标签
ack.aliyun.com/nvidia-driver-version:525.105.17
指定驱动版本为525.105.17。具体操作,请参见通过指定版本号自定义节点GPU驱动版本。 -
已安装最新版Arena客户端。具体操作,请参见配置Arena客户端。
部署ModelScope模型
步骤一:部署推理服务
-
执行以下命令,通过Arena部署一个自定义类型的服务。该服务名称为modelscope,版本号为v1。
应用启动后程序会自动从ModelScope下载名为
qwen/Qwen1.5-4B-Chat
的模型。如需修改为其他模型可以修改启动参数里的MODEL_ID
字段,可以通过环境变量DASHSCOPE_API_KEY
配置ModelScope SDK Token信息。重要
ModelScope模型将会下载到容器内,因此GPU节点磁盘空间至少需要预留30 GB。
arena serve custom \ --name=modelscope \ --version=v1 \ --gpus=1 \ --replicas=1 \ --restful-port=8000 \ --readiness-probe-action="tcpSocket" \ --readiness-probe-action-option="port: 8000" \ --readiness-probe-option="initialDelaySeconds: 30" \ --readiness-probe-option="periodSeconds: 30" \ --image=kube-ai-registry.cn-shanghai.cr.aliyuncs.com/kube-ai/quick-deploy-llm:v1 \ "MODEL_ID=qwen/Qwen1.5-4B-Chat python3 server.py"
参数说明如下所示:
参数
说明
--name
指定推理服务名称。
--version
指定推理服务版本。
--gpus
指定单个推理服务副本需要使用的GPU卡数。
--replicas
指定推理服务副本数。
--restful-port
指定推理服务对外暴露的端口。
--readiness-probe-action
指定就绪探针连接类型,支持HttpGet、Exec、gRPC、TCPSocket。
--readiness-probe-action-option
指定就绪探针连接方式。
--readiness-probe-option
指定就绪探针配置。
--image