本文以Qwen1.5-4B-Chat模型、GPU类型为T4和A10卡为例,演示如何在ACK中使用Triton和vLLM(Versatile Large Language Model)推理框架部署通义千问(Qwen)模型推理服务。
背景信息
Qwen1.5-4B-Chat
Qwen1.5-4B-Chat是阿里云基于Transformer大语言模型研发的40亿参数模型,模型在超大规模的预训练数据(预训练数据类型多样且覆盖广泛,包括大量网络文本、专业书籍、代码等)上进行训练得到。更多模型信息,请参见Qwen GitHub代码库。
Triton(Triton Inference Server)
Triton(Triton Inference Server)是NVIDIA开源的一个推理服务框架,可以帮助您快速搭建AI推理应用。Triton支持多种不同的机器学习框架作为它的运行时后端,包括TensorRT、TensorFlow、PyTorch、ONNX、vLLM等。Triton面向实时推理、批量推理以及音视频流式推理场景进行了许多优化,在推理时能获得更好的性能。Triton的核心功能包括:
-
支持多种机器学习和深度学习运行时框架
-
支持并发模型执行
-
动态Batching
-
支持暴露GPU利用率、请求延时、请求吞吐量等核心推理服务指标
更多关于Triton推理服务框架的信息,请参考Triton Inference Server GitHub代码库。
vLLM
vLLM是一个高效易用的大语言模型推理服务框架,vLLM支持包括通义千问在内的多种常见大语言模型。vLLM通过PagedAttention优化、动态批量推理(Continuous Batching)、模型量化等优化技术,可以取得较好的大语言模型推理效率。更多关于vLLM框架的信息,请参见vLLM GitHub代码库。
前提条件
-
已创建包含GPU节点的ACK集群Pro版,且集群版本为1.22及以上,GPU节点显存需为16GB及以上。具体操作,请参见创建ACK托管集群。
建议GPU节点使用525版本驱动,您可以通过为GPU节点池添加标签
ack.aliyun.com/nvidia-driver-version:525.105.17
指定驱动版本为525.105.17。具体操作,请参见通过指定版本号自定义节点GPU驱动版本。 -
已安装最新版Arena客户端。具体操作,请参见配置Arena客户端。
步骤一:准备模型数据
本文以Qwen1.5-4B-Chat模型为例,演示如何下载模型、上传模型至OSS,以及在ACK集群中创建对应的存储卷PV和存储卷声明PVC。
如需使用其他模型,请参见vLLM支持的模型列表;如需上传模型至NAS,请参见使用NAS静态存储卷。
-
下载模型文件。
-
执行以下命令,安装Git。
# 可执行yum install git或apt install git安装。 yum install git
-
执行以下命令,安装Git LFS(Large File Support)插件。
# 可执行yum install git
-