基于ACK使用Triton部署Qwen模型推理服务

最新推荐文章于 2025-12-15 12:55:55 发布

原创

最新推荐文章于 2025-12-15 12:55:55 发布 · 931 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#服务器 #运维

本文以Qwen1.5-4B-Chat模型、GPU类型为T4和A10卡为例，演示如何在ACK中使用Triton和vLLM（Versatile Large Language Model）推理框架部署通义千问（Qwen）模型推理服务。

背景信息

Qwen1.5-4B-Chat

Qwen1.5-4B-Chat是阿里云基于Transformer大语言模型研发的40亿参数模型，模型在超大规模的预训练数据（预训练数据类型多样且覆盖广泛，包括大量网络文本、专业书籍、代码等）上进行训练得到。更多模型信息，请参见Qwen GitHub代码库。

Triton（Triton Inference Server）

Triton（Triton Inference Server）是NVIDIA开源的一个推理服务框架，可以帮助您快速搭建AI推理应用。Triton支持多种不同的机器学习框架作为它的运行时后端，包括TensorRT、TensorFlow、PyTorch、ONNX、vLLM等。Triton面向实时推理、批量推理以及音视频流式推理场景进行了许多优化，在推理时能获得更好的性能。Triton的核心功能包括：

支持多种机器学习和深度学习运行时框架
支持并发模型执行
动态Batching
支持暴露GPU利用率、请求延时、请求吞吐量等核心推理服务指标

更多关于Triton推理服务框架的信息，请参考Triton Inference Server GitHub代码库。

vLLM

vLLM是一个高效易用的大语言模型推理服务框架，vLLM支持包括通义千问在内的多种常见大语言模型。vLLM通过PagedAttention优化、动态批量推理（Continuous Batching）、模型量化等优化技术，可以取得较好的大语言模型推理效率。更多关于vLLM框架的信息，请参见vLLM GitHub代码库。

前提条件

已创建包含GPU节点的ACK集群Pro版，且集群版本为1.22及以上，GPU节点显存需为16GB及以上。具体操作，请参见创建ACK托管集群。

建议GPU节点使用525版本驱动，您可以通过为GPU节点池添加标签ack.aliyun.com/nvidia-driver-version:525.105.17指定驱动版本为525.105.17。具体操作，请参见通过指定版本号自定义节点GPU驱动版本。
已安装最新版Arena客户端。具体操作，请参见配置Arena客户端。

步骤一：准备模型数据

本文以Qwen1.5-4B-Chat模型为例，演示如何下载模型、上传模型至OSS，以及在ACK集群中创建对应的存储卷PV和存储卷声明PVC。

如需使用其他模型，请参见vLLM支持的模型列表；如需上传模型至NAS，请参见使用NAS静态存储卷。

下载模型文件。
1. 执行以下命令，安装Git。
```
# 可执行yum install git或apt install git安装。
yum install git
```
2. 执行以下命令，安装Git LFS（Large File Support）插件。
```
# 可执行yum install git
```

最低0.47元/天解锁文章