摘要: TensorRT-LLM 采用 PyTorch 全新架构进一步优化模型部署流程,提升开发者使用体验。
TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。TensorRT-LLM 提供了一个全面的开源 SDK,用于加速和优化 LLM 推理,包含了最新极致优化的计算 Kernel、高性能 Attention 实现、多机多卡通信分布式支持、丰富的并行和量化策略等,从而在 NVIDIA GPU 上实现突破性的 LLM 推理性能。此外,TensorRT-LLM 采用了 PyTorch 的全新架构,提供了直观简洁的模型定义 API,便于定义和构建新模型,显著减少了代码量,同时大幅降低了 debugging难度,进一步优化了模型部署流程,提升了开发者的使用体验。
本文将介绍如何在魔搭社区使用 TensorRT-LLM 加速优化 Qwen3 系列模型推理部署。
Qwen3 模型
通义千问 Qwen3 是阿里巴巴开发并开源的混合推理大语言模型(LLM), Qwen3 开源模型系列包含两款混合专家模型 (MoE) 235B-A22B(总参数 2,350 亿,激活参数 220 亿)和 30B-A3B,以及六款稠密(Dense)模型 0.6B、1.7B、4B、8B、14B、32B。作为中国首个混合推理模型,Qwen3 在 AIME、LiveCodeBench、ArenaHard、BFCL 等权威评测集上均获得出色的表现(信息来源于阿里巴巴官方微信公众号),在推理、指令遵循、Agent 能力、多语言支持等方面均大幅增强,是全球领先的开源模型。
Qwen 系列开源模型因其突出的模型能力、丰富的模型尺寸和持续更新的生态,在开源社区直接使用、二次开发和落地应用上都有着极其深刻的影响力。
近期 Qwen3 还进一步补齐了开源序列中的 Embedding 和 Rerank 模型,强大的模型矩阵全面覆盖从复杂推理、Agent 任务到轻量级部署的需求,进一步巩固和加强了整个 Qwen 开源生态。
ModelScope 魔搭社区
ModelScope 魔搭作为中国最大最活跃的开源模型社区,旨在打造下一代开源的模型即服务共享平台,为泛 AI 开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单。
超过 1,600 万开发者可以在 ModelScope 轻松下载和部署模型,快速体验模型效果,并通过云端 AI 环境实现在线推理与训练,无需复杂的本地配置。同时,ModelScope 支持多种灵活的部署方式,包括云端、本地及设备端部署,助力开发者以更低的成本和更高的效率推动 AI 技术的应用落地。
除了模型和数据集的托管和灵活调用部署,ModelScope 还提供特色功能社区。比如在ModelScope MCP 广场中上线将近 4,000 多个 MCP server,能够帮助广大开发者更好的通过标准化工具接口,实现模型智能边界的外拓,让魔搭的开源模型生态能更好的与 MCP 生态产生更多的碰撞与化学效应。(介绍来源于魔搭社区)
利用 TensorRT-LLM 加速优化 Qwen3 模型推理部署
在 Qwen3 开源发布的同时,TensorRT-LLM 便已实现支持相关系列模型的推理加速优化部署。针对 Qwen3 推理加速优化,TensorRT-LLM 支持的重要特性包括:
模型并行:支持 TP(Tensor Parallelism ),EP(Expert Parallelism )和 Attention DP(Data Parallelism )等多机多卡并行方式,满足大尺寸模型的并行切分以及高服务级别目标的需求。
量化:除了原生 BF16 数据类型之外,现已支持 per-tensor FP8 量化与 blockwise FP8 量化的支持。通过低精度量化显著降低显存和算力需求,在保证模型整体精度的同时进一步提升推理部署的延迟和整体吞吐。其中,BF16 模型和 FP8 blockwise 量化模型的 checkpoint 可直接通过 ModelScope 相关页面进行访问和下载(例如:Qwen3-235B-A22B-FP8),FP8 per-tensor 量化模型 checkpoint 可通过 NVIDIA TensorRT-Model-Optimizer 工具进行量化处理得到。
Prefill-Decode 分离式部署:通过将 LLM的prefill 和 decode 阶段解耦在不同的 executors 执行,可以自由调整 PD 比例、并行方式乃至异构 GPU 型号,以进一步提升推理系统整体的灵活性和性比价,并综合调整 TTFT 及 TPOT 等 SLO 级别。
下面将快速介绍如果通过 TensorRT-LLM 快速部署并拉起由 ModelScope 托管的 Qwen3 模型推理服务(以 Qwen3-235B-A22B 在单机 8 卡 GPU 上推理为例)。
- 安装 TensorRT-LLM
当前可通过多种方式来进行 TensorRT-LLM 的安装。
- pip 安装
(Optional) pip3 install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
sudo apt-get -y install libopenmpi-dev && pip3 install --upgrade pip setuptools && pip3 install tensorrt_llm
- 使用预编译好的 NGC 容器镜像
- 源码编译容器镜像:下载 TensorRT-LLM github 源代码后,在代码主目录运行编译命令
make -C docker release_build
- 从 ModelScope 下载模型 checkpoint
# Using modelscope cmd tool to download
pip install modelscope
modelscope download --model Qwen/Qwen3-235B-A22B
# or using git clone
git lfs install
git clone https://www.modelscope.cn/Qwen/Qwen3-235B-A22B.git
- 使用 trtllm-serve 命令进行推理服务部署
# Setup LLM API configuration file
cat >./extra-llm-api-config.yml <<EOF
use_cuda_graph: true
cuda_graph_padding_enabled: true
cuda_graph_batch_sizes: [1, 2, 4, 8, 16, 32, 64, 128, 256, 384]
print_iter_log: true
enable_attention_dp: true
EOF
# Launch inference service
trtllm-serve \
Qwen3-235B-A22B/ \
--host localhost \
--port 8000 \
--backend pytorch \
--max_batch_size 161 \
--max_num_tokens 1160 \
--tp_size 8 \
--ep_size 8 \
--pp_size 1 \
--kv_cache_free_gpu_memory_fraction 0.8 \
--extra_llm_api_options ./extra-llm-api-config.yml
- 请求服务测试:部署完成后便可通过标准 OpenAI API 进行推理服务请求发送,例如如下 curl 命令
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3-235B-A22B/",
"prompt": "Please describe what is Qwen.",
"max_tokens": 128,
"temperature": 0
}'
在上述已实现的各项优化特性之外,针对 Qwen3 系列模型,TensorRT-LLM 还在不断研发和探索新的优化方法,包括 kernel 层面的持续优化、算子融合、基于 sparse attention 的超长文本支持、基于 Eagle-3 的投机性采样、MoE 模型的 expert 负载均衡、新的量化精度(W4AFP8/NVFP4)等等,期待您紧密关注 TensorRT-LLM 最新进展。
总结
除了 Qwen3 系列模型,TensorRT-LLM 现已支持 ModelScope 社区主流的生成式AI大模型,模型列表请参考 TensorRT-LLM Support Matrix 和 ModelScope 社区 TensorRT-LLM 专题页。
通过双方在生成式 AI 模型软件加速库层面的技术合作,使用性能强大、敏捷灵活的软件栈,能够大大简化开发者快速进行大模型的原型验证与产品研发部署的工作流并获得极致推理部署性能,进一步加快大模型的广泛落地和应用生态。