vLLM 0.12.0 发布了。这次更新堪称一次“地基级”升级:从执行引擎到推理并行、从推理加速到多模态支持,全线都有显著改动。
以下我们从核心变化、主要特性、性能优化、API 更新到不兼容变更进行完整解读。
🔥 核心亮点(TL;DR)
- GPU Model Runner V2:执行管线重写,结构更纯粹、采样更高效。
- Prefill Context Parallel(PCP):解决长序列推理卡脖子问题。
- EAGLE 推测解码增强:多步 CUDA Graph、DP>1、多模态通吃。
- 多模态进一步扩展:支持 Qwen3VL、Gemma3 GGUF 等。
- PyTorch 2.9 + CUDA 12.9:需要升级环境(Breaking)。
- 大量 API 统一、性能优化、硬件适配扩展。
1. 核心引擎升级
1.1 GPU Model Runner V2:完全重写的推理执行管线
该版本最关键的变动,无疑是 GPU Model Runner V2(#25266)。
它带来的能力包括:
✔ 取消持久化 batch reordering
旧版每次 batch 变化时都要维护复杂结构,现在不需要了。
✔ 引入 GPU 持久化 Block Tables
解决 KV Cache 在大模型长度和 KV 分组数多时的扩展问题。
✔ Triton 原生采样器
- 彻底摆脱“-1 temperature hack”
- 每个请求独立种子
- 内存更紧凑的 prompt logprobs
✔ 更易维护的分布式(DP)和 CUDA Graph 实现
整体架构变得更清晰,让未来扩展更容易。
✔ 更高效的结构化输出支持
对 JSON/工具调用等结构化生成进一步优化。
这是一次真正意义上的底层重构,而不是简单 patch。
1.2 Prefill Context Parallel(PCP)
长序列推理一向是大模型的“吞 GPU 黑洞”。
v0.12.0 带来了 PCP(Prefill Context Parallel):
- 在 prefill 阶段 按序列维度分片
- 与之前的 DCP(Decode Context Parallel)形成互补
- 对长上下文推理(比如 128k、256k token)提效显著
这是未来“长上下文时代”不可或缺的能力。
2. EAGLE 推测解码升级
vLLM 的推测解码(speculative decoding)路线持续推进。
2.1 Multi-step CUDA graph(#29559)
支持更复杂的 EAGLE 多步推理图,大幅提升吞吐。
2.2 DP > 1 支持(#26086)
推测解码可在数据并行中正常工作,扩展到大规模训练集群。
2.3 多模态支持(Qwen3VL)(#29594)
EAGLE 不再局限文本,现在连图文模型都能一起推测。
2.4 logprobs + 异步调度兼容(#29223)
提供结构化生成、对齐训练、工具调用更丰富的基础。
3. 模型生态扩展
这一版本新增大量新模型支持。
3.1 新模型族
- PLaMo-3
- OpenCUA-7B
- HunyuanOCR
- Mistral Large 3 / Ministral 3
3.2 格式增强
- Gemma3 GGUF 多模态支持
3.3 多模态优化
- Qwen3 Omni 语音输入视频流
- Qwen3VL 的 Eagle3 多模态图支持
- QwenVL cos/sin cache 优化(性能收益)
vLLM 已从“文本推理框架”快速演化为“多模态推理平台”。
4. 性能优化(NVIDIA / AMD / CPU)
4.1 NVIDIA GPU 侧优化
主要包括:
- DeepSeek V3.1:BMM 优化带来 18.1% 吞吐提升、10.7% TTFT 优化
- FlashInfer DeepGEMM 重叠:2%+ 提升
- DeepEP MoE 管线优化
- H200、NVFP4、MoE kernel 全线增强
特别对于 MoE 工作负载,多项优化叠加后收益明显。
4.2 AMD ROCm 侧支持增强
- DeepSeek v3.2 / SparseMLA 支持
- FP8 MLA decode
- AITER sampling + backend
- bitsandbytes 量化可在 AMD warp size 32 下工作
- Whisper v1 with flash attention
AMD 生态的支持明显加速成熟。
4.3 CPU 侧优化
- ARM NEON 优化 paged attention GEMM
- int4 MoE 多线程 token 并行
- DP>1 的 CPU all-reduce 优化
对于 CPU 主部署场景也能获得可观提升。
5. 量化(Quantization)扩展
vLLM 0.12.0 的量化更新非常多:
W4A8
- Marlin kernel 支持
NVFP4
- MoE CUTLASS kernel for SM120
- TRTLLM NVFP4 kernel
- CuteDSL DeepEP dispatch 支持
- 非 gated 激活支持 modelopt 流程
AWQ
- 支持 Turing GPU 上的压缩张量
LoRA
- FusedMoE LoRA Triton kernel(MXFP4 后端)
Online Quant 迁移
- 在线量化移动到
model.load_weights(),更统一。
6. API & 前端变化
✔ Responses API
- 多轮对话支持非 Harmony 请求
- reasoning item parsing
(让 vLLM 更贴近 OpenAI 的 Response API 形态)
✔ Tool Calling
- 已解析工具参数
- parallel_tool_calls 参数
- ToolServer 支持过滤 Tool
✔ Whisper
- 支持 verbose_json 和时间戳
(用户长期期待)
✔ Sampling
- Flat logprob 控制移动到 SamplingParams
✔ GGUF
- repo_id:quant_type 的加载方式更友好
✔ Profiling
- Torch/CUDA profiler 逐 iteration 分析
✔ 日志输出
- 现在是彩色的
7. 不兼容变更(Breaking Changes)
强制升级:PyTorch 2.9 + CUDA 12.9
这是本次最关键的 breaking change,需要:
- CUDA 12.9
- PyTorch 2.9
- 若使用 Docker,需更新镜像
移除/废弃项包括:
已移除
- num_lookahead_slots
- best_of
- LoRA extra vocab
废弃(即将移除)
- xformers backend
- seed=None
- ParallelConfig 中的 EPLB 字段
- guided_* 字段
- override_pooler_config / disable_log_requests
- CompilationConfig.use_inductor
- 部分 metrics
自动检测变更
- Mistral 格式加载逻辑调整
强烈建议在升级前验证所有自定义配置。
8. Docker / 部署改进
- 官方镜像减少约 200MB
- 多 NUMA 节点支持改进
- 更稳定的跨硬件部署能力
总结
vLLM 0.12.0 是一次 “大版本级别”的更新:
- 引擎重构:更快、更稳、更易扩展
- 长序列推理:PCP 解锁未来超长 context
- 推测解码:多模态、多步、分布式全支持
- 模型生态:覆盖更多文本与多模态家族
- 性能优化:NVIDIA / AMD / CPU 全栈提速
- API 体验:更接近 OpenAI 标准、更稳定、更丰富
- Breaking changes:需要注意 PyTorch/CUDA 升级与配置迁移
如果你正在构建任意类型的大语言模型推理系统,vLLM 0.12.0 值得尽快尝试。
from openai import OpenAI
path = "example.wav"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base,
)
with open(path, "rb") as f:
resp = client.audio.transcriptions.create(
language="zh",
file=f,
model="large-v3-turbo",
timestamp_granularities=["segment"],
response_format = "verbose_json",
)
result = resp
print("Chat completion output from input audio:", resp)
App Store 截图生成器 、utc timestamp, base64 encode/decode
乖猫记账,AI智能分类的最佳聊天学生必备记账App。
百度网盘免费加速
7766

被折叠的 条评论
为什么被折叠?



