使用TensorRT-LLM部署Qwen2模型推理服务

最新推荐文章于 2025-06-13 10:24:34 发布

segwyang

最新推荐文章于 2025-06-13 10:24:34 发布

阅读量1.8k

点赞数 17

CC 4.0 BY-SA版权

文章标签：前端框架运维

本文链接：https://blog.youkuaiyun.com/segwyang/article/details/143889294

本文以Qwen2-1.5B-Instruct模型、GPU类型为A10卡为例，演示如何在ACK中使用Triton推理服务 + TensorRT-LLM部署通义千问模型推理服务。模型部署过程中使用Fluid Dataflow完成模型准备工作，并使用Fluid提升模型加载速度。

背景信息

Qwen2-1.5B-Instruct

Qwen2-1.5B-Instruct是基于Transformer的大语言模型，在超大规模的预训练数据上进行训练得到的15亿参数规模的模型。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。

更多模型信息，请参见Qwen2 Github代码库。

Triton（Triton Inference Server）

Triton Inference Server是NVIDIA开源的推理服务框架，可以帮助您快速搭建AI推理应用。Triton支持多种不同的机器学习框架作为它的运行时后端，包括TensorRT、TensorFlow、PyTorch、ONNX、vLLM等。Triton面向实时推理、批量推理以及音视频流式推理场景进行了许多优化，以在推理时获得更好的性能。

更多关于Triton推理服务框架的信息，请参见Triton Inference Server GitHub代码库。

TensorRT-LLM

TensorRT-LLM 是NVIDIA开源的LLM（Large Language Model）模型优化引擎，用于定义LLM模型并将模型构建为TensorRT引擎，以提升服务在NVIDIA GPU上的推理效率。TensorRT-LLM还可以与Triton框架结合，作为Triton推理框架的一种后端TensorRT-LLM Backend。TensorRT-LLM构建的模型可以在单个或多个GPU上运行，支持Tensor Parallelism及Pipeline Parallelism。

更多关于TensorRT-LLM的信息，请参见TensorRT-LLM Github代码库。

前提条件

已创建包含A10卡GPU的ACK集群Pro版，且集群版本为1.22及以上。具体操作，请参见创建ACK托管集群。

建议GPU节点使用525版本驱动，您可以通过为GPU节点池添加标签ack.aliyun.com/nvidia-driver-version:525.105.17指定驱动版本为525.105.17。具体操作，请参见通过指定版本号自定义节点GPU驱动版本。
已安装云原生AI套件并部署ack-fluid组件。

重要

若您已安装开源Fluid，请卸载后再部署ack-fluid组件。
- 未安装云原生AI套件：安装时开启Fluid数据加速。具体操作，请参见安装云原生AI套件。
- 已安装云原生AI套件：在容器服务管理控制台的云原生AI套件页面部署ack-fluid。
已安装最新版Arena客户端。具体操作，请参见配置Arena客户端。
已开通阿里云对象存储（OSS）服务，并创建存储空间。具体操作，请参见开通OSS服务、创建存储空间。