本文以Qwen2-1.5B-Instruct模型、GPU类型为A10卡为例,演示如何在ACK中使用Triton推理服务 + TensorRT-LLM部署通义千问模型推理服务。模型部署过程中使用Fluid Dataflow完成模型准备工作,并使用Fluid提升模型加载速度。
背景信息
Qwen2-1.5B-Instruct
Qwen2-1.5B-Instruct是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到的15亿参数规模的模型。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。
更多模型信息,请参见Qwen2 Github代码库。
Triton(Triton Inference Server)
Triton Inference Server是NVIDIA开源的推理服务框架,可以帮助您快速搭建AI推理应用。Triton支持多种不同的机器学习框架作为它的运行时后端,包括TensorRT、TensorFlow、PyTorch、ONNX、vLLM等。Triton面向实时推理、批量推理以及音视频流式推理场景进行了许多优化,以在推理时获得更好的性能。
更多关于Triton推理服务框架的信息,请参见Triton Inference Server GitHub代码库。
TensorRT-LLM
TensorRT-LLM 是NVIDIA开源的LLM(Large Language Model)模型优化引擎,用于定义LLM模型并将模型构建为TensorRT引擎,以提升服务在NVIDIA GPU上的推理效率。TensorRT-LLM还可以与Triton框架结合,作为Triton推理框架的一种后端TensorRT-LLM Backend。TensorRT-LLM构建的模型可以在单个或多个GPU上运行,支持Tensor Parallelism及Pipeline Parallelism。
更多关于TensorRT-LLM的信息,请参见TensorRT-LLM Github代码库。
前提条件
-
已创建包含A10卡GPU的ACK集群Pro版,且集群版本为1.22及以上。具体操作,请参见创建ACK托管集群。
建议GPU节点使用525版本驱动,您可以通过为GPU节点池添加标签
ack.aliyun.com/nvidia-driver-version:525.105.17
指定驱动版本为525.105.17。具体操作,请参见通过指定版本号自定义节点GPU驱动版本。 -
已安装云原生AI套件并部署ack-fluid组件。
重要
若您已安装开源Fluid,请卸载后再部署ack-fluid组件。
-
已安装最新版Arena客户端。具体操作,请参见配置Arena客户端。
步骤一:创建Dataset和JindoRuntime
Dataset可以高效地