本文以Qwen1.5-4B-Chat模型、GPU类型为A10卡为例,演示如何在ACK中使用Hugging Face的TGI(Text Generation Inference)框架部署Qwen(通义千问)模型推理服务。
背景信息
Qwen1.5-4B-Chat
Qwen1.5-4B-Chat是阿里云基于Transformer大语言模型研发的40亿参数模型,模型在超大规模的预训练数据(预训练数据类型多样且覆盖广泛,包括大量网络文本、专业书籍、代码等)上进行训练得到。更多模型信息,请参见Qwen GitHub代码库。
TGI(Text Generation Inference)
TGI是Hugging Face开源的用于部署大语言模型推理服务的工具,能够简单快速的部署常见的大语言模型,支持Flash Attention、Paged Attention、Continuous batching、 Tensor parallelism等功能来加速推理性能,更多信息,请参见TGI官方文档。
前提条件
-
已创建包含A10卡GPU的Kubernetes集群,且集群版本为1.22及以上。具体操作,请参见创建GPU集群。
建议GPU节点使用525版本驱动,您可以通过为GPU节点池添加标签
ack.aliyun.com/nvidia-driver-version:525.105.17指定驱动版本为525.105.17。具体操作,请参见通过指定版本号自定义节点GPU驱动版本。 -
已安装最新版Arena客户端。具体操作,请参见配置Arena客户端。
步骤一:准备模型数据
本文以Qwen1.5-4B-Chat模型为例,演示如何下载模型、上传模型至OSS,以及在ACK集群中创建对应的存储卷PV和存储卷声明PVC。
如需上传模型至NAS,请参见使用NAS静态存储卷。
-
-
下载模型文件。
-
执行以下命令,安装Git。
# 可执行yum install git或apt install git安装。 yum install git -
执行以下命令,安装Git LFS(Large File Support)插件。
-
-

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



