使用TensorRT-LLM部署Qwen2模型推理服务

本文以Qwen2-1.5B-Instruct模型、GPU类型为A10卡为例,演示如何在ACK中使用Triton推理服务 + TensorRT-LLM部署通义千问模型推理服务。模型部署过程中使用Fluid Dataflow完成模型准备工作,并使用Fluid提升模型加载速度。

背景信息

Qwen2-1.5B-Instruct

Qwen2-1.5B-Instruct是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到的15亿参数规模的模型。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。

更多模型信息,请参见Qwen2 Github代码库

Triton(Triton Inference Server)

Triton Inference Server是NVIDIA开源的推理服务框架,可以帮助您快速搭建AI推理应用。Triton支持多种不同的机器学习框架作为它的运行时后端,包括TensorRT、TensorFlow、PyTorch、ONNX、vLLM等。Triton面向实时推理、批量推理以及音视频流式推理场景进行了许多优化,以在推理时获得更好的性能。

更多关于Triton推理服务框架的信息,请参见Triton Inference Server GitHub代码库

TensorRT-LLM

TensorRT-LLM 是NVIDIA开源的LLM(Large Language Model)模型优化引擎,用于定义LLM模型并将模型构建为TensorRT引擎,以提升服务在NVIDIA GPU上的推理效率。TensorRT-LLM还可以与Triton框架结合,作为Triton推理框架的一种后端TensorRT-LLM Backend。TensorRT-LLM构建的模型可以在单个或多个GPU上运行,支持Tensor Parallelism及Pipeline Parallelism。

更多关于TensorRT-LLM的信息,请参见TensorRT-LLM Github代码库

前提条件

  • 已创建包含A10卡GPU的ACK集群Pro版,且集群版本为1.22及以上。具体操作,请参见创建ACK托管集群

    建议GPU节点使用525版本驱动,您可以通过为GPU节点池添加标签ack.aliyun.com/nvidia-driver-version:525.105.17指定驱动版本为525.105.17。具体操作,请参见通过指定版本号自定义节点GPU驱动版本

  • 已安装云原生AI套件并部署ack-fluid组件。

    重要

    若您已安装开源Fluid,请卸载后再部署ack-fluid组件。

  • 已安装最新版Arena客户端。具体操作,请参见配置Arena客户端

  • 已开通阿里云对象存储(OSS)服务,并创建存储空间。具体操作,请参见开通OSS服务创建存储空间

步骤一:创建Dataset和JindoRuntime

Dataset可以高效地

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值