vLLM 0.12.0 重磅更新：whisper终于支持verbose_json 时间戳了

原创已于 2025-12-05 17:04:58 修改 · 45 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#whisper #json

于 2025-12-05 16:57:47 首次发布

vLLM 0.12.0 发布了。这次更新堪称一次“地基级”升级：从执行引擎到推理并行、从推理加速到多模态支持，全线都有显著改动。

以下我们从核心变化、主要特性、性能优化、API 更新到不兼容变更进行完整解读。

🔥 核心亮点（TL;DR）

GPU Model Runner V2：执行管线重写，结构更纯粹、采样更高效。
Prefill Context Parallel（PCP）：解决长序列推理卡脖子问题。
EAGLE 推测解码增强：多步 CUDA Graph、DP>1、多模态通吃。
多模态进一步扩展：支持 Qwen3VL、Gemma3 GGUF 等。
PyTorch 2.9 + CUDA 12.9：需要升级环境（Breaking）。
大量 API 统一、性能优化、硬件适配扩展。

1. 核心引擎升级

1.1 GPU Model Runner V2：完全重写的推理执行管线

该版本最关键的变动，无疑是 GPU Model Runner V2（#25266）。

它带来的能力包括：

✔ 取消持久化 batch reordering

旧版每次 batch 变化时都要维护复杂结构，现在不需要了。

✔ 引入 GPU 持久化 Block Tables

解决 KV Cache 在大模型长度和 KV 分组数多时的扩展问题。

✔ Triton 原生采样器

彻底摆脱“-1 temperature hack”
每个请求独立种子
内存更紧凑的 prompt logprobs

✔ 更易维护的分布式（DP）和 CUDA Graph 实现

整体架构变得更清晰，让未来扩展更容易。

✔ 更高效的结构化输出支持

对 JSON/工具调用等结构化生成进一步优化。

这是一次真正意义上的底层重构，而不是简单 patch。

1.2 Prefill Context Parallel（PCP）

长序列推理一向是大模型的“吞 GPU 黑洞”。

v0.12.0 带来了 PCP（Prefill Context Parallel）：

在 prefill 阶段 按序列维度分片
与之前的 DCP（Decode Context Parallel）形成互补
对长上下文推理（比如 128k、256k token）提效显著

这是未来“长上下文时代”不可或缺的能力。

2. EAGLE 推测解码升级

vLLM 的推测解码（speculative decoding）路线持续推进。

2.1 Multi-step CUDA graph（#29559）

支持更复杂的 EAGLE 多步推理图，大幅提升吞吐。

2.2 DP > 1 支持（#26086）

推测解码可在数据并行中正常工作，扩展到大规模训练集群。

2.3 多模态支持（Qwen3VL）（#29594）

EAGLE 不再局限文本，现在连图文模型都能一起推测。

2.4 logprobs + 异步调度兼容（#29223）

提供结构化生成、对齐训练、工具调用更丰富的基础。

3. 模型生态扩展

这一版本新增大量新模型支持。

3.1 新模型族

PLaMo-3
OpenCUA-7B
HunyuanOCR
Mistral Large 3 / Ministral 3

3.2 格式增强

Gemma3 GGUF 多模态支持

3.3 多模态优化

Qwen3 Omni 语音输入视频流
Qwen3VL 的 Eagle3 多模态图支持
QwenVL cos/sin cache 优化（性能收益）

vLLM 已从“文本推理框架”快速演化为“多模态推理平台”。

4. 性能优化（NVIDIA / AMD / CPU）

4.1 NVIDIA GPU 侧优化

主要包括：

DeepSeek V3.1：BMM 优化带来 18.1% 吞吐提升、10.7% TTFT 优化
FlashInfer DeepGEMM 重叠：2%+ 提升
DeepEP MoE 管线优化
H200、NVFP4、MoE kernel 全线增强

特别对于 MoE 工作负载，多项优化叠加后收益明显。

4.2 AMD ROCm 侧支持增强

DeepSeek v3.2 / SparseMLA 支持
FP8 MLA decode
AITER sampling + backend
bitsandbytes 量化可在 AMD warp size 32 下工作
Whisper v1 with flash attention

AMD 生态的支持明显加速成熟。

4.3 CPU 侧优化

ARM NEON 优化 paged attention GEMM
int4 MoE 多线程 token 并行
DP>1 的 CPU all-reduce 优化

对于 CPU 主部署场景也能获得可观提升。

5. 量化（Quantization）扩展

vLLM 0.12.0 的量化更新非常多：

W4A8

Marlin kernel 支持

NVFP4

MoE CUTLASS kernel for SM120
TRTLLM NVFP4 kernel
CuteDSL DeepEP dispatch 支持
非 gated 激活支持 modelopt 流程

AWQ

支持 Turing GPU 上的压缩张量

LoRA

FusedMoE LoRA Triton kernel（MXFP4 后端）

Online Quant 迁移

在线量化移动到 model.load_weights()，更统一。

6. API & 前端变化

✔ Responses API

多轮对话支持非 Harmony 请求
reasoning item parsing
（让 vLLM 更贴近 OpenAI 的 Response API 形态）

✔ Tool Calling

已解析工具参数
parallel_tool_calls 参数
ToolServer 支持过滤 Tool

✔ Whisper

支持 verbose_json 和时间戳
（用户长期期待）

✔ Sampling

Flat logprob 控制移动到 SamplingParams

✔ GGUF

repo_id:quant_type 的加载方式更友好

✔ Profiling

Torch/CUDA profiler 逐 iteration 分析

✔ 日志输出

现在是彩色的

7. 不兼容变更（Breaking Changes）

强制升级：PyTorch 2.9 + CUDA 12.9

这是本次最关键的 breaking change，需要：

CUDA 12.9
PyTorch 2.9
若使用 Docker，需更新镜像

移除/废弃项包括：

已移除

num_lookahead_slots
best_of
LoRA extra vocab

废弃（即将移除）

xformers backend
seed=None
ParallelConfig 中的 EPLB 字段
guided_* 字段
override_pooler_config / disable_log_requests
CompilationConfig.use_inductor
部分 metrics

自动检测变更

Mistral 格式加载逻辑调整

强烈建议在升级前验证所有自定义配置。

8. Docker / 部署改进

官方镜像减少约 200MB
多 NUMA 节点支持改进
更稳定的跨硬件部署能力

总结

vLLM 0.12.0 是一次 “大版本级别”的更新：

引擎重构：更快、更稳、更易扩展
长序列推理：PCP 解锁未来超长 context
推测解码：多模态、多步、分布式全支持
模型生态：覆盖更多文本与多模态家族
性能优化：NVIDIA / AMD / CPU 全栈提速
API 体验：更接近 OpenAI 标准、更稳定、更丰富
Breaking changes：需要注意 PyTorch/CUDA 升级与配置迁移

如果你正在构建任意类型的大语言模型推理系统，vLLM 0.12.0 值得尽快尝试。



from openai import OpenAI

path = "example.wav"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

with open(path, "rb") as f:
    resp = client.audio.transcriptions.create(
        language="zh",
        file=f,
        model="large-v3-turbo",
        timestamp_granularities=["segment"],
        response_format = "verbose_json",
    )

    result = resp
    print("Chat completion output from input audio:", resp)