在魔搭社区使用 NVIDIA TensorRT-LLM PyTorch 新架构优化 Qwen3 系列模型推理

NVIDIA AI 技术专区

于 2025-07-04 16:48:10 发布

阅读量450

点赞数 11

CC 4.0 BY-SA版权

文章标签： pytorch 架构人工智能

本文链接：https://blog.youkuaiyun.com/NVIDIA_Community/article/details/149121012

摘要： TensorRT-LLM 采用 PyTorch 全新架构进一步优化模型部署流程，提升开发者使用体验。

TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库，可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。TensorRT-LLM 提供了一个全面的开源 SDK，用于加速和优化 LLM 推理，包含了最新极致优化的计算 Kernel、高性能 Attention 实现、多机多卡通信分布式支持、丰富的并行和量化策略等，从而在 NVIDIA GPU 上实现突破性的 LLM 推理性能。此外，TensorRT-LLM 采用了 PyTorch 的全新架构，提供了直观简洁的模型定义 API，便于定义和构建新模型，显著减少了代码量，同时大幅降低了 debugging难度，进一步优化了模型部署流程，提升了开发者的使用体验。

本文将介绍如何在魔搭社区使用 TensorRT-LLM 加速优化 Qwen3 系列模型推理部署。

Qwen3 模型

通义千问 Qwen3 是阿里巴巴开发并开源的混合推理大语言模型（LLM）， Qwen3 开源模型系列包含两款混合专家模型 (MoE) 235B-A22B（总参数 2,350 亿，激活参数 220 亿）和 30B-A3B，以及六款稠密（Dense）模型 0.6B、1.7B、4B、8B、14B、32B。作为中国首个混合推理模型，Qwen3 在 AIME、LiveCodeBench、ArenaHard、BFCL 等权威评测集上均获得出色的表现（信息来源于阿里巴巴官方微信公众号），在推理、指令遵循、Agent 能力、多语言支持等方面均大幅增强，是全球领先的开源模型。

Qwen 系列开源模型因其突出的模型能力、丰富的模型尺寸和持续更新的生态，在开源社区直接使用、二次开发和落地应用上都有着极其深刻的影响力。

近期 Qwen3 还进一步补齐了开源序列中的 Embedding 和 Rerank 模型，强大的模型矩阵全面覆盖从复杂推理、Agent 任务到轻量级部署的需求，进一步巩固和加强了整个 Qwen 开源生态。

ModelScope 魔搭社区

ModelScope 魔搭作为中国最大最活跃的开源模型社区，旨在打造下一代开源的模型即服务共享平台，为泛 AI 开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单。

超过 1,600 万开发者可以在 ModelScope 轻松下载和部署模型，快速体验模型效果，并通过云端 AI 环境实现在线推理与训练，无需复杂的本地配置。同时，ModelScope 支持多种灵活的部署方式，包括云端、本地及设备端部署，助力开发者以更低的成本和更高的效率推动 AI 技术的应用落地。

除了模型和数据集的托管和灵活调用部署，ModelScope 还提供特色功能社区。比如在ModelScope MCP 广场中上线将近 4,000 多个 MCP server，能够帮助广大开发者更好的通过标准化工具接口，实现模型智能边界的外拓，让魔搭的开源模型生态能更好的与 MCP 生态产生更多的碰撞与化学效应。（介绍来源于魔搭社区）

利用 TensorRT-LLM 加速优化 Qwen3 模型推理部署

在 Qwen3 开源发布的同时，TensorRT-LLM 便已实现支持相关系列模型的推理加速优化部署。针对 Qwen3 推理加速优化，TensorRT-LLM 支持的重要特性包括：

模型并行：支持 TP（Tensor Parallelism ），EP（Expert Parallelism ）和 Attention DP（Data Parallelism ）等多机多卡并行方式，满足大尺寸模型的并行切分以及高服务级别目标的需求。

量化：除了原生 BF16 数据类型之外，现已支持 per-tensor FP8 量化与 blockwise FP8 量化的支持。通过低精度量化显著降低显存和算力需求，在保证模型整体精度的同时进一步提升推理部署的延迟和整体吞吐。其中，BF16 模型和 FP8 blockwise 量化模型的 checkpoint 可直接通过 ModelScope 相关页面进行访问和下载（例如：Qwen3-235B-A22B-FP8），FP8 per-tensor 量化模型 checkpoint 可通过 NVIDIA TensorRT-Model-Optimizer 工具进行量化处理得到。

Prefill-Decode 分离式部署：通过将 LLM的prefill 和 decode 阶段解耦在不同的 executors 执行，可以自由调整 PD 比例、并行方式乃至异构 GPU 型号，以进一步提升推理系统整体的灵活性和性比价，并综合调整 TTFT 及 TPOT 等 SLO 级别。

下面将快速介绍如果通过 TensorRT-LLM 快速部署并拉起由 ModelScope 托管的 Qwen3 模型推理服务（以 Qwen3-235B-A22B 在单机 8 卡 GPU 上推理为例）。

安装 TensorRT-LLM

当前可通过多种方式来进行 TensorRT-LLM 的安装。

pip 安装

(Optional) pip3 install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
sudo apt-get -y install libopenmpi-dev && pip3 install --upgrade pip setuptools && pip3 install tensorrt_llm

使用预编译好的 NGC 容器镜像
源码编译容器镜像：下载 TensorRT-LLM github 源代码后，在代码主目录运行编译命令

make -C docker release_build

从 ModelScope 下载模型 checkpoint

# Using modelscope cmd tool to download
pip install modelscope
modelscope download --model Qwen/Qwen3-235B-A22B
# or using git clone
git lfs install
git clone https://www.modelscope.cn/Qwen/Qwen3-235B-A22B.git

使用 trtllm-serve 命令进行推理服务部署

# Setup LLM API configuration file
cat >./extra-llm-api-config.yml <<EOF
use_cuda_graph: true
cuda_graph_padding_enabled: true
cuda_graph_batch_sizes: [1, 2, 4, 8, 16, 32, 64, 128, 256, 384]
print_iter_log: true
enable_attention_dp: true
EOF
# Launch inference service
trtllm-serve \
  Qwen3-235B-A22B/ \
  --host localhost \
  --port 8000 \
  --backend pytorch \
  --max_batch_size 161 \
  --max_num_tokens 1160 \
  --tp_size 8 \
  --ep_size 8 \
  --pp_size 1 \
  --kv_cache_free_gpu_memory_fraction 0.8 \
  --extra_llm_api_options ./extra-llm-api-config.yml

请求服务测试：部署完成后便可通过标准 OpenAI API 进行推理服务请求发送，例如如下 curl 命令

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
      "model": "Qwen3-235B-A22B/",
      "prompt": "Please describe what is Qwen.",
      "max_tokens": 128,
      "temperature": 0
  }'

在上述已实现的各项优化特性之外，针对 Qwen3 系列模型，TensorRT-LLM 还在不断研发和探索新的优化方法，包括 kernel 层面的持续优化、算子融合、基于 sparse attention 的超长文本支持、基于 Eagle-3 的投机性采样、MoE 模型的 expert 负载均衡、新的量化精度（W4AFP8/NVFP4）等等，期待您紧密关注 TensorRT-LLM 最新进展。