vllm 0.11.0 发布说明

原创已于 2025-11-11 20:29:19 修改 · 1.9k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

于 2025-10-08 00:33:43 首次发布

vLLM 专栏收录该内容

57 篇文章

订阅专栏

该文章已生成可运行项目，

亮点

本次发布包含 538 次提交，207 名贡献者（其中 65 名为新贡献者）！

本次发布完成了 V0 引擎的移除。V0 引擎相关代码（包括 AsyncLLMEngine、LLMEngine、MQLLMEngine、所有注意力后端及相关组件）已被移除。目前代码库仅保留 V1 引擎。
默认开启 FULL_AND_PIECEWISE 作为 CUDA graph 模式，对多模型（尤其细粒度 MoE）有更佳性能，同时兼容仅支持 PIECEWISE 模式的模型。

模型支持

新架构：DeepSeek-V3.2-Exp (#25896)、Qwen3-VL 系列 (#24727)、Qwen3-Next (#24526)、OLMo3 (#24534)、LongCat-Flash (#23991)、Dots OCR (#24645)、Ling2.0 (#24627)、CWM (#25611)。
编码器：支持 RADIO 编码器 (#24595)，Transformers 后端支持仅编码器模型 (#25174)。
任务扩展：BERT token 分类/命名实体识别（NER）（#24872），多模态模型支持池化任务 (#24451)。
视觉编码器数据并行：InternVL (#23909)、Qwen2-VL (#25445)、Qwen3-VL (#24955)。
推测解码：MiniCPM3 的 EAGLE3 (#24243) 和 GPT-OSS (#25246)。
特性：Qwen3-VL 纯文本模式 (#26000)、EVS 视频 token 剪枝 (#22980)、Mamba2 TP+量化 (#24593)、MRoPE + YaRN (#25384)、Whisper 支持 XPU (#25123)、LongCat-Flash-Chat 工具调用 (#24083)。
性能：GLM-4.1V 通过融合 RMSNorm 降低 916ms TTFT (#24733)、GLM-4 MoE SharedFusedMoE 优化 (#24849)、Qwen2.5-VL CUDA sync 移除 (#24741)、Qwen3-VL Triton MRoPE 内核 (#25055)、Qwen3-Next FP8 检查点 (#25079)。
推理：SeedOSS 解析器 (#24263)。

引擎核心

KV 缓存卸载：CPU 卸载+LRU 管理 (#19848, #20075, #21448, #22595, #24251)。
V1特性：Prompt embedding (#24278)、分片状态加载 (#25308)、FlexAttention 滑动窗口 (#24089)、LLM.apply_model (#18465)。
混合分配器：流水线并行 (#23974)，可变隐藏层大小 (#25101)。
异步调度：单处理器执行器支持 (#24219)。
架构：Tokenizer group 移除 (#24078)，多模态缓存共享内存 (#20452)。
注意力：Triton 支持混合 SSM/注意力 (#21197)，ViT 支持 FlashAttention 3 (#24347)。
性能：FlashInfer RoPE 提速 2 倍 (#21126)，融合 Q/K RoPE 性能提升 11% (#24511, #25005)，推测解码开销降低 8 倍 (#24986)，FlashInfer 推测解码提速 1.14 倍 (#25196)，模型信息缓存 (#23558)，inputs_embeds 避免复制 (#25739)。
LoRA：权重加载优化 (#25403)。
默认设置：CUDA graph 模式 FULL_AND_PIECEWISE (#25444)，Inductor 独立编译默认禁用 (#25391)。
torch.compile：CUDA graph Inductor 分区集成 (#24281)。

硬件与性能

NVIDIA：FP8 FlashInfer MLA 解码 (#24705)，BF16 融合 MoE 支持 Hopper/Blackwell 专家并行 (#25503)。
DeepGEMM：默认启用 (#24462)，吞吐提升 5.5% (#24783)。
新架构：RISC-V 64 位 (#22112)、ARM 非 x86 CPU (#25166)、ARM 4 位融合 MoE (#23809)。
AMD：ROCm 7.0 (#25178)、GLM-4.5 MI300X 调优 (#25703)。
Intel XPU：MoE DP 精度修复 (#25465)。

大规模服务与性能

双批次重叠（DBO）：计算重叠机制 (#23693)，DeepEP 高吞吐+预填充 (#24845)。
数据并行：torchrun 启动器 (#24899)、Ray placement groups (#25026)、Triton DP/EP 内核 (#24588)。
EPLB：Hunyuan V1 (#23078)、Mixtral (#22842)、静态分配 (#23745)、开销降低 (#24573)。
分离式服务：KV 传输指标 (#22188)、NIXL MLA 潜在维度 (#25902)。
MoE：共享专家重叠优化 (#24254)、DeepSeek-R1 SiLU 内核 (#24054)、NaiveAllToAll 后端支持 Allgather/ReduceScatter (#23964)。
分布式：NCCL 对称内存吞吐提升 3-4% (#24532)，TP 默认启用 (#25070)。

量化

FP8：每 token 组量化 (#24342)，硬件加速指令 (#24757)，torch.compile KV 缓存 (#22758)，分页注意力更新 (#22222)。
FP4：NVFP4 支持稠密模型 (#25609)、Gemma3 (#22771)、Llama 3.1 405B (#25135)。
W4A8：预处理加速 (#23972)。
压缩张量：MoE 支持块状 FP8 (#25219)。

API 与前端

OpenAI：所有 token 支持提示 logprobs (#24956)，logprobs=-1 支持全词表 (#25031)，推理流式事件 (#24938)，Responses API MCP 工具 (#24628, #24985)，引擎死亡返回 503 (#24897)。
多模态：Media UUID 缓存 (#23950)，图片路径格式 (#25081)。
工具调用：Qwen3-Coder XML 解析器 (#25028)，Hermes 风格 token (#25281)。
CLI：–enable-logging 开关 (#25610)，–help 优化 (#24903)。
配置：推测模型引擎参数 (#25250)，环境校验 (#24761)，NVTX profiling (#25501)，guided decoding 兼容性 (#25615, #25422)。
指标：V1 TPOT 直方图 (#24015)，隐藏弃用的 gpu_ 指标 (#24245)，KV 缓存显示 GiB (#25204, #25479)。
用户体验：移除误导性量化警告 (#25012)。

安全

GHSA-wr9h-g72x-mwhm

依赖

PyTorch 2.8 for CPU (#25652)，FlashInfer 0.3.1 (#24470)，CUDA 13 (#24599)，ROCm 7.0 (#25178)。
构建要求：C++17 全局强制 (#24823)。
TPU：弃用 xm.mark_step，改用 torch_xla.sync (#25254)。

V0 移除

引擎：AsyncLLMEngine (#25025)、LLMEngine (#25033)、MQLLMEngine (#25019)、core (#25321)、model runner (#25328)、MP executor (#25329)。
组件：注意力后端 (#25351)、encoder-decoder (#24907)、输出处理器 (#25320)、采样元数据 (#25345)、Sequence/Sampler (#25332)。
接口：LoRA (#25686)、异步输出处理器 (#25334)、MultiModalPlaceholderMap (#25366)、seq group 方法 (#25330)、占位注意力 (#25510)、输入 embedding (#25242)、多模态注册表 (#25362)、max_seq_len_to_capture (#25543)、注意力类 (#25541)、混合模型 (#25400)、后端后缀 (#25489)、编译回退 (#25675)、默认参数 (#25409)。

变更内容

[Qwen3-Next] 为 H20 TP=1,2,4,8 配置 MoE #24707
[文档] 更新 ROCm 安装文档部分 #24691
支持将多模态模型转换为池化任务 #24451
修复当使用提示嵌入时，BLOOM 模型在 vLLM 和 HuggingFace 之间的实现差异 #24686
[Bug修复] 修复 MRoPE 在 CPU 上的调度问题 #24712
[Bug修复] 修复 Qwen3-Next 的流水线并行（PP）问题 #24709
[CI] 修复不稳定测试 v1/worker/test_gpu_model_runner.py::test_kv_cache_stride_order #24640
[CI] 添加 ci_envs 以方便本地测试 #24630
[CI/构建] 在仅支持 V1 的 CPU 后端跳过提示嵌入测试 #24721
[杂项][gpt-oss] 为提及 harmony 或与内置工具调用相关的 PR 添加 gpt-oss 标签 #24717
[Bug修复] 修复 BNB 名称匹配问题 #24735
[内核][CPU] 重构 cpu_attn.py:_run_sdpa_forward 以优化内存访问 #24701
[睡眠模式] 为在线量化节省内存 #24731
[多模态] 在 VIT 中添加 FA3 #24347
[多模态] 移除旧的多模态字段，改用 MultiModalFeatureSpec #24548
[文档]：修复各种文件中的拼写错误 #24726
[文档] 修复 mkdocs 构建中的警告（续） #24740
[Bug修复] 修复 MRoPE 在 XPU 上的调度问题 #24724
[Qwen3-Next] 为 H100 TP=1,2 和 TP2/EP 配置 MoE #24739
[核心] 基于共享内存的多模态数据缓存与进程间通信对象存储 #20452
[Bug修复][前端] 修复 --enable-log-outputs 与文档不匹配的问题 #24626
[模型] 优化和简化 _validate_and_reshape_mm_tensor #24742
[模型] 防止 Qwen2.5-VL 中的 CUDA 同步 #24741
[模型] 在 GLM-4.1V 模型中切换到 Fused RMSNorm #24733
[用户体验] 移除 AsyncLLM torch profiler 被禁用的日志 #24609
[CI] 加速 CI 中的模型单元测试 #24253
[Bug修复] 修复 #20452 与 #24548 之间的不兼容问题 #24754
[CI] 当添加/移除标签时触发 BC Linter #24767
[基准测试] 允许向被测端点传递任意请求头 #23937
[编译 Bug] 修复 Inductor 图输出中的形状问题 #24772
调整模式顺序以确保正确识别 out_proj 层 #24781
[注意力][FlashInfer] 启用 FP8 FlashInfer（TRTLLM）MLA 解码 #24705
将 FLASHINFER_MLA 添加到后端选择器测试中 #24753
[Qwen3Next] 修复大 batch size 下 cuda graph 捕获条件问题 (#24660) #24667
[核心] 支持单处理器执行器（uniproc executor）的异步调度 #24219
[前端][多模态] 当提供 UUID 时允许跳过媒体数据 #23950
[模型] 添加 Olmo3 模型实现 #24534
[Bug修复] 修复 GPUModelRunner 缺少 lora_manager 属性的问题 #24762
[日常维护] 移除未使用的批量 RoPE 操作和内核 #24789
[文档] 修复 mkdocs 构建中的警告（续） #24791
[文档] 移除 Neuron 安装文档，因为该后端已不存在 #24396
[文档]：移除 404 错误的超链接 #24785
[性能] 使用 NVIDIA 硬件加速指令进行 float 到 fp8_e4m3 量化 #24757
[内核][DP/EP] 优化 R1 的 Silu 内核 #24054
[核心][多模态] 缓存 supports_kw #24773
[CI 失败] 修复 test_flashinfer_cutlass_mxfp4_mxfp8_fused_moe 测试 #24750
[杂项] 修正过时的注释 #24765
[文档]：修复各种文件中的拼写错误 #24798
[CI][Spec Decode] 再次调整 flaky ngram spec 解码测试的阈值 #24771
移除 xfer_buffers 中的冗余赋值，这是一个小修复 #24732
[次要] 简化 CUDA 设备检查的重复代码 #24793
[日常维护] 对非 PP 路径进行少量简化 #24810
[多模态][性能] 将 Q 和 K 的 apply_rope 合并为一个操作 #24511
[杂项] 使用 BaseClient 改进 s3_utils 的类型提示 #24825
[性能] 修复 DeepGEMM 连续布局问题，提升 5.5% 吞吐量 #24783
修复 encode_base64 的采样率类型 #24826
[基准测试] 当同时使用 dataset-name random 和 dataset-path 时报错提示 #24819
强制全局使用 C++17 以避免编译错误 #24823
[日常维护] 移除 ipex_ops 警告 #24835
[Spec 解码] 支持 DP 模式下的 Spec 解码指标 #24049
[混合分配器] 支持流水线并行 #23974
[文档] 尝试改进 frameworks/streamlit.md #24841
[kv 缓存] 在最后更新 num_free_blocks #24228
[前端] 在推理内容中跳过 stop #14550
[Bug修复] MiDashengLM 模型在并发测试中出现连接错误 #24738
[文档]：修复各种文件中的拼写错误 #24821
[杂项] 将 interval 重命名为 max_recent_requests #24229
[杂项] 自行安装 KVConnectors #24867
[P/D] kv_output_aggregator 支持异构 #23917
[单元测试] 增强 free kv cache block queue 的 popleft_n 功能 #24220
[XPU] 设置一致的默认 KV 缓存布局 #24745
[杂项] 修复示例 openai_pooling_client.py #24853
[模型]：支持 Ling2.0 #24627
[Bug修复] 修复 GLM4.1V 多模态处理器与 Transformers v4.56 的兼容性 #24822
Fp8 分页注意力更新 #22222
恢复现有的 torch script #24729
[使用] 改进未量化模型权重初始化的错误处理 #20321
将 MultiModalConfig 从 config/init.py 移动到 config/multimodal.py #24659
[转换] 确定性 Hadacore 转换 #24106
将 num_tokens_across_dp 的通信从 gloo 切换到 nccl #24105
将 Flashinfer 升级到 0.3.1 #24868
[gpt-oss] 在 ResponsesRepsonse 中添加 IncompleteDetails #24561
[gpt-oss][1a] create_responses 流式输出为 BaseModel 类型，api server 仍为 SSE #24759
[性能] 移除 cutlass_mla 中多余的 clone() 调用 #24891
[Bug] 修复 Cutlass Scaled MM 编译错误 #24887
[CI] 修复 arm 架构 wheel 的命名 #24898
[测试] 修复测试中 kv hash 的初始化 #24273
[编译] 修复 noop_elimination 传递并为其添加测试 #24880
将 “HuggingFace” 修改为 “Hugging Face”（在“与 Hugging Face 集成”文档中） #24889
更新 flashinfer、mla、fused_moe 的 CODEOWNERS #24906
[弃用] 移除 DeepGEMM 旧符号包装器 #24902
[ROCm][Bug修复] 修复存在偏置的情况 #24895
添加 pytest-cov 和 .coveragerc #24778
[Bug] 修复 is_flashmla_supported 检查错误 #24774
[CI] 为 Deepseek 模型进行小型精度评估测试 #24259
[指标] 隐藏带有 gpu_ 前缀的已弃用指标 #24245
[文档] 更新如何使用现有 torch 二进制文件的说明 #24892
将 flashinfer 升级到 0.3.1 #24470
[XPU] 修复循环导入错误。 #24927
移除 V0 版本编码器-解码器支持 #24907
[Bug修复] 修复启用流水线并行时序列并行性的 Bug #24021
[Bug][Spec Dec]：修复 Eagle3 起草器在 FP8 目标下 kv_cache 数据类型不匹配问题 #24505
[QWEN NEXT] 融合 MoE 内核优化配置 #24924
[基准测试] 在调优后的 MoE 配置中添加 Triton 版本信息 #24769
[Bug修复] 移除在必需工具选择流式传输中重复的 token #23312
[Mamba] 支持 mamba2 mixer 在 TP>1 且满足 n_groups % tp_size == 0 时进行量化 #24593
[功能][EPLB] 为 MoE 模型提出一种新的静态 EPLB 放置策略 #23745
将 SpeculativeConfig 从 config/init.py 移动到 config/speculative.py #24904
[文档] 将 benchmarks 的 README 移动到 contributing 指南中 #24820
功能：为 vLLM 添加 Grafana 和 Perces 监控仪表盘 #23498
(文档)：在 MacOS CPU 上构建时设置 cmake 的 C++ 兼容标准 #23483
[CI] 在 CI 中添加解码上下文并行（Decode Context Parallelism, DCP）测试 #24487
[模型] 清理并简化 V0 和 V1 中 Mamba2 的元数据使用 #24331
[核心][多模态哈希器] 在哈希过程中不要将 memoryview 转换为 bytes #24925
[核心/DBO][1/N] 为 vLLM 添加双批次重叠机制 #23693
[Bug修复] 修复当 disable_hybrid_kv_cache_manager 为 true 时无法运行编码器模型的问题 #24571
[杂项] 将已移除的编码器-解码器模型添加到先前支持的模型列表中 #24961
在 V1 中直接从 VLLM 配置获取最大编码器长度 #24866
[gpt-oss][1b] 流式传输中添加 item id 和 content id #24788
[杂项] 将 vllm/v1 的代码负责人添加到 vllm/v1/core 中 #24928
[ROCm] 添加 ROCm 相关依赖 #24900
[gpt-oss][1][Bug修复] 修复流式传输的最终输出 #24466
在测试中使用 kwargs 传递 EngineCoreRequest 的长参数列表，并修复多余的 kwargs #24987
修复 torch.compile 下的 fp8 kv cache 支持 #22758
[性能] 为 FP8+FP4 Marlin MoE 重用工作空间 #20500
[CI][Bug修复] 修复失败的 Blackwell 测试 #24993
[CI] 为 Blackwell 执行 GPT-OSS GPQA 评估测试 #24920
[FP8] 将逐 token 组的量化支持扩展到 QuantFP8 #24342
移除 nixl 依赖的源码编译 #24874
[文档] 为 generate_cmake_presets.py 添加 --force-overwrite 选项 #24375
[核心] 使用 CpuGpuBuffer 作为 block table 张量 #24795
[基准测试] 添加 MMVU 视频数据集支持并清理已弃用的数据集 #24719
[用户体验] 强制要求环境变量如 VLLM_ATTENTION_BACKEND 等取有效值 #24761
[文档] 修复无效的文档链接 #25017
[用户体验] 移除“量化尚未完全优化”的日志 #25012
[杂项] 修复 ValueError 中的拼写错误 #24995
[核心] 从调度器配置中获取 num_encoder_tokens #24989
[V0 弃用] 移除 MQLLMEngine #25019
[模型] 支持 Qwen3-VL 模型系列 #24727
[Rocm][量化] 修复 quark ptpc moe 并添加测试用例 #24649
添加更多文档并提升 lognormal 分布（benchmark_serving_multi_turn）的易用性 #23255
[XPU] 修复 xpu 模型运行器调用 torch.cuda API 的问题 #25011
[EPLB] 为 Mixtral 模型支持 EPLB #22842
[核心][多模态哈希器] 哈希图像时不转换图像模式 #24969
[模型] 将参数前缀传递给 LLMHead #24862
[模型] 将 SharedFusedMoE 应用于 glm4_moe #24849
[核心] 移除 vLLM 中的分词器组 #24078
[文档] 修复 base_static_graph.py 中的 griffe 警告 #25018
[DP] 通过 ray_device_key 创建放置组 #25026
[前端] 支持返回所有提示 logprobs #24956
[Bug修复] 启用 DOTALL 以匹配 extract_tool_call_required_streaming 中多行的 tool_call 参数 #24668
[杂项] 避免使用已弃用的 AutoModelForVision2Seq #25065
为 vLLM 添加 RADIO 视觉编码器支持 #24595
[Bug修复] 修复 CPU 模型运行器和 OneDNN 内核检查中 Stream 的使用问题 #25046
应用针对 CUDA 13 的修复 #24599
[修复] lora 基准测试通过 no_lora_flag_cpu #23774
[Bug修复][Qwen3-Next] 修复 qwen3-next 的 MTP 实现中的变长问题 #24957
[文档] 为消除 griffe 构建警告改进代码格式和注释 #25010
移除旧的 cutlass mla #23961
[文档] 修复 vllm/benchmarks/datasets.py 中的 docstring 参数格式 #24970
[CI Bug修复] 修复失败的 test_invalid_env 测试 #25078
[V0 弃用] 移除 V0 核心测试 #25082
清理：移除 adapter commons #25045
移除未使用的 find_cuda_init 辅助脚本 #25044
[V0 弃用] 移除未使用的输出处理器工具 #25023
将 IOProcessor 的日志级别从 info 改为 debug #24999
[CI] 撤销 prepare_prompts 和 check_answers 的更改 #25087
[V0 弃用] 移除 test_sequence.py 中的 V0 测试 #25088
[CI Bug修复] 由于分词器重构导致 test_model_load_with_params 测试失败，修复该问题 #25086
[V1] Logits 处理器文档 #22919
[杂项] 更新 KV 连接器和 V1 卸载的负责人 #25041
[Bug修复] 更新 bc_linter_include 的导入路径 #24766
[BUG] 从远程拉取文件时排除 .pth 文件 #25092
[内核] 为 W4A8 加速预处理时间 #23972
[gpt-oss][2] 修复流式传输的类型定义 #24556
[Bug修复][B200] 修复 cutlass_mla 挂起问题 #24966
[ROCm][Bug修复] 修复 aiter mha fp8 问题 #24991
暂时禁用失败的 GPT-OSS 评估（Blackwell） #25107
[Bug修复] 重构 Flashinfer TRTLLM 注意力内核选择逻辑 #24600
添加批处理自动调优脚本 #25076
[Bug修复] 修复 silu_mul + nvfp4 量化融合内核的精度问题 #24833
[内核] 将 FusedMoEQuantConfig 的构造委托给 FusedMoEMethodBase 子类 #22537
[V0 弃用] 移除 V0 引擎测试 #25114
[V0 弃用] 移除 V0 跟踪与指标测试 #25115
[V0 弃用] 移除其他 V0 测试 #25118
[V0 弃用] 跳过 PP 测试 #25128
[内核] 默认启用 DeepGEMM #24462
[MM 编码器] 为 Qwen3-VL 模型系列应用 DP ViT #24955
[文档] 清理 contributing 的 README #25099
[核心][多模态] 清理 MultiModalCache #25006
[Bug修复][Qwen3-Next] 为 qwen3-next 中的 shared_expert 和 qwen2moe 中的 mlp 添加前缀，以便成功加载量化模型中被忽略的参数 #24960
[内核] 通过组合而非分发来重叠共享专家 #24254
[模型] 为 InternVL 视觉编码器启用数据并行 #23909
在 API 层面上将 prompt logprobs 标记为与 prompt embeds 不兼容 #25077
[XPU] 在 XPU 平台上支持 Whisper 模型 #25123
[EPLB] 为 hunyuan_v1 模型添加 EPLB 支持 #23078
[V0 弃用] 移除更多 V0 测试 #25117
[Spec Decode] 高效的填充推测 #24539
[基准测试] 添加峰值吞吐量指标和图表 #23867
[命令行接口] 在 CLI 的 chat 和 completion 命令中使用流式传输 #23769
[内核] 为分组 topk cu 提供更好的 inf 处理 #24886
[文档] 修复 API 参考 #25140
从 text 配置中获取 Gemma3 MM 的 sliding_window #25085
[Bug修复] 当使用 s3 模型时无法使用默认的 load_format #24435
[Qwen] 为 qwen3-next 添加 fp8 检查点支持 #25079
为 ImagePrompt 的 data_format 添加 ‘path’ 选项 #25081
[文档] 修复交叉引用警告 #25058
[日常维护] 清理 guided 命名空间，移动到结构化输出配置 #22772
修复：为某些工具链上的 OpenMP 兼容性显式添加 #include <omp.h> #24951
silu-v1：修复在 max-reduction 中未使用 EPS 的问题 #25069
[前端] 支持将 logprobs 设置为 -1 #25031
[模型] 改进 Pooling 模型 #25149
将 StructuredOutputsConfig 从 config/init.py 移动到 config/structured_outputs.py #25153
[文档] 修复 openai_compatible_server.md 中 pooling-params 文档引用 #24939
[文档] 在 LLMEngine 和 AsyncLLM 中添加并行采样用法说明 #24222
修复文档中的前向引用警告 #25150
修复 validate-config 的 pre-commit 检查 #25157
[Bug修复][Mamba] 修复 Conv State Kernel 的 FP32 支持 #24883
[杂项] 清理 vllm bench serve 中的标志 #25138
[结构化输出][重构] 将 apply_grammar_bitmask() 方法从 ModelRunner 移动到结构化输出工具中 #21999
重构密集 FP8 张量/通道/块工具，并添加 CT FP8 块 #21404
[杂项] 添加 kv-connector 标签 #25156
[内核] 在 Triton 统一注意力内核中启用混合模型支持 #21197
[性能] 为 GDN attn 添加 conv1d 元数据 #25105
功能（API）：当引擎宕机时，/health 接口返回 503 #24897
[新模型] 支持 BertForTokenClassification / 命名实体识别（NER）任务 #24872
[文档] 修复 mkdocs 构建中的警告（续） #25163
为 NaiveAllToAll 启用 Allgather/ReduceScatter 后端 #23964
[杂项] 为 Transformers 后端添加代码负责人 #25180
[spec decode] 修复 MiMo-7B 模型的 MTP 推理路径 #25136
[ROCm][CI/构建] 以 ROCm7.0 为基础 #25178
[ROCm][AITER][Bug修复] 将 AITER 切换为使用 PIECEWISE_AND_FULL 编译 #25104
[KV 卸载][1/N] 引入卸载组件 #19848
[V0 弃用] 移除 AsyncLLMEngine #25025
[修复]：从 gptoss 模型实现中移除数据类型硬编码 #23807
[功能]：为模型特定的 M-RoPE 创建接口 #24194
[Bug] 修复 returned_lse 未定义问题 #25106
[Bug] 修复 torch 编译缓存命中错误 #25093
[V0 弃用] 移除未使用的 async_timeout.py #25190
[KV 卸载][1b/N] 将卸载重命名为 kv_offload #25191
[Bug修复] 修复 DeepGEMM 预热，缺少 m.weight_scale_inv #25206
[核心] 为 v1 引擎提供 Prompt Embeddings 支持 #24278
[KV 卸载][2/N] 引入基于 LRU 的 CPU 卸载管理 #20075
[gpt-oss] 为流式传输添加 ResponseReasoningPartAddedEvent 和 ResponseReasoningPartDoneEvent #24938
[性能] 优化 EAGLE 模型加载期间的内存峰值 #24585
[杂项] 清理 MM 分析警告 #25222
[文档] 修复 vllm/multimodal 中的 griffe 警告 #25216
[OOT] 支持 OOT 的同步模型加载 #25126
[构建] 将 Xgrammar 更新到 0.1.24 以修复一个 CVE #25188
[CPU] 在非 x86 平台上禁用 oneDNN 线性层 #25166
[Bug修复][CPU] 为在没有 triton 的平台上使用 fused_moe 操作时添加占位符，避免导入错误 #25137
[杂项] 清理针对已弃用编码器-解码器模型的测试 conftest #25231
[Bug修复] 修复类似 OpenGVLab/InternVL3_5-38B 模型的 MHA 问题 #25146
[内核][性能] 为 Qwen3-VL 交错 M-RoPE 添加 Triton 内核 #25055
[Bug修复][性能] 针对 Qwen3 VL 的各种修复 #25238
将 PoolerConfig 从 config/init.py 移动到 config/pooler.py #25181
[P/D][Nixl] 引入 KVTransferMetrics 和聚合策略 #22188
[V0 弃用] 从 get_input_embeddings 接口中移除 V0 逻辑 #25242
[Qwen] 移除 qwen3 next 中的 cuda 硬编码 #25243
更新 CODEOWNERS #25269
将 ModelConfig 从 config/init.py 移动到 config/model.py #25252
重构（基准测试）：为 wait_for_endpoint 参数添加类型注解 #25218
[KV 卸载][3/N] 添加工作端 CPU 支持 #21448
[前端] 将 API 服务器数量传递给每个进程 #23717
[核心] 修改 lora 管理器的初始化参数 #25249
移除 Qwen3_VisionPatchMerger 中的冗余赋值 #25224
支持 Transformers 后端的编码器模型 #25174
[CI/构建] 修复 test_function_calling 测试 #25072
[核心][前缀哈希] 修复前缀哈希指标滑动窗口维护问题 #24990
[文档] 在 vllm/model_executor/layers/quantization/compressed_tensors/transform 目录下添加 init.py #24974
[Bug修复] 修复结构化输出中缺失键的问题（来自 #24929） #25195
[KV 卸载][4/N] 卸载 KV 连接器 #22595
优化 Triton 统一注意力性能以支持滑动窗口注意力 #24390
[Bug修复] GPT OSS 在 H100 上的属性错误 #25228
[Bug修复] 修复模块化内核中分块的 a2_scales 问题 #25264
在 pip-compile 的 pre-commit 钩子中指定平台，使其在 MacOS 上运行 #25273
[性能] 在可用时使用 FlashInfer RoPE 进行 RotaryEmbedding.forward_cuda #21126
[Bug修复] 使 FlashInferMetadataBuilder 非阻塞 #25040
修复：在自动量化中确保 FusedMoE 层引用的正确性 #24818
[前端] 仅支持 Harmony 的响应 API 消息 #24985
[编译] 修复忽略 MIN_BLOCK_PER_SM 的编译警告 #25193
启用 modelopt gemma3 nvfp4/fp8，使工作流程更加健壮 #22771
允许禁用 FlashInfer 预填充 #25276
[Bug修复] 修复异步调度的 CPU 张量竞争问题（第二次尝试） #25279
[Bug修复] 移除 VLLM_TEST_DYNAMO_FULLGRAPH_CAPTURE #2969 #25090
不跳过 Hermes 风格工具调用中的特殊标记 #25281
测试：移除在支持 v1 Prompt Embeds 后遗留的对 prompt embeds 测试的跳过 #25291
[文档] 支持 Prompt Embedding 功能 #25288
[torch.compile] 集成 CUDAGraph Inductor 分区 #24281
[Bug修复] 确保析构函数中有适当的防护措施 #25284
[杂项] 支持更多的 collective_rpc 返回类型 #25294
改进 Transformers 后端编码器模型的权重加载 #25289
[BUGFIX] 使 Qwen3 Next MOE 模型与 GPTQ 量化兼容（AutoGPTQ 和 AutoRound-GPTQ） #25268
[Bug修复] 在检查端口冲突时排除自身 #25286
[BUG FIX][非 CUDA] 快速修复以避免在注意力中调用 cudagraph_unsafe #25298
[Bug修复] 修复工具调用参数为空的问题 #25223
[优化] 避免对池化模型进行重复的模型架构转换 #25261
[混合分配器] 支持具有不同隐藏大小的全注意力 #25101
[Bug修复] 修复 Qwen3-VL-MoE 在 EP 上的权重加载问题 #25300
[V1] 支持 LLM.apply_model #18465
[CI 失败] 禁用 FlashInfer RoPE 以解除 CI 阻塞 #25299
[文档] 修复 mkdocs 构建中的警告（续） #25042
在加载时生成 _ModelInfo 属性文件以提高加载速度 #23558
[模型] 清理 InternViT 的数据并行实现 #25306
[核心] 为 V1 引擎启用分片状态加载器并增强测试覆盖率 #25308
[V0 弃用] 在 V1 中启用剩余的多模态测试 #25307
[文档] 修复 vllm/profiler 和 vllm/transformers_utils 中的警告 #25220
[V0 弃用] 移除 LLMEngine #25033
[V0 弃用] 移除 V0 输出处理器 #25320
[日常维护] 移除模型中未使用的采样器 #25324
[CI] 跳过在主分支上失败的测试 #25326
[V0 弃用] 移除 V0 核心 #25321
[文档] 改善 test-pipeline.yaml 文档 #25305
[V0 弃用] 移除 V0 模型运行器基类并简化工作线程基类 #25328
[多模态][性能] 在更多模型中融合 Q,K 的 apply_rope #25005
[V0 弃用] 移除 from_seq_group 方法 #25330
[V0 弃用] 移除 V0 MP 执行器 #25329
[V1] 为 Flex Attention 后端添加滑动窗口支持 #24089
[多模态][性能] 对 Qwen3-VL fast_pos_embed_interpolate 进行微优化 #25337
[Bug修复] 缺失模型配置文件错误消息中的拼写错误 #25339
[优化] 当处理器加载失败时缓存聊天模板结果 #25341
[V0 弃用] 移除 V0 Sequence 类和采样器 #25332
[V0 弃用] 移除 async_output_proc、抢占模式、延迟因子 #25334
功能：为推测器模型启用引擎级参数 #25250
[V0 弃用] 移除 V0 采样元数据 #25345
[性能] 进一步优化 Qwen3-VL fast_pos_embed_interpolate #25347
移除 V0 注意力后端 #25351
[Bug修复][V0 弃用][CI] 使用异步模拟和 await 处理异步方法 #25325
多模态 - 音频测试 #25285
[模型] 支持 Dots OCR #24645
[文档] 更新 GSM8K 准确性评估文档 #25360
[Bug修复] 修复 Hermes 工具解析器对非字符串参数类型的处理 #22002
[V0 弃用] 移除多模态注册表中仅限 V0 的方法 #25362
[V0 弃用] 移除 MultiModalPlaceholderMap #25366
为 GPT-OSS 模型启用 Eagle3 推测解码 #25246
[TPU][Bug修复][CI] 修复损坏的测试/构建依赖 #25255
[TPU] 弃用 xm.mark_step，转而使用 torch_xla.sync #25254
重构：将图模式支持抽象为平台接口 #25161
[杂项] 移除未使用的编码器-解码器错误字符串 #25374
加快 pickle 导入检查的速度 #25379
使 mypy 行为类似于正确的 pre-commit 钩子 #25313
MI-300X Triton MoE 配置 #23445
[Bug修复] 修复 p2p xPyD 在 GET 类型中的多个问题 #23993
[V1][注意力] 将 triton_attn 分割为仅 Triton 和 ROCm 特定的后端 #24648
[EPLB] 降低 EPLB 推理开销 #24573
[CLI 环境变量] 在环境变量中添加 VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH #25274
[编译器] 默认禁用 Inductor 独立编译 #25391
[CI 失败] 修复 <SM90 上的 fp8 kv 缓存问题 #25396
[DP] 支持使用数据并行性的 torchrun 外部启动器 #24899
移除 RFC 审查小时数的引用 #25416
[torch.compile] 清理编译测试和自定义传递，添加调试工具，修复 DCE Bug（#23091），修复测试（#24376），并为自定义操作匹配做准备（#24604） #24542
[KV 卸载][5/N] 添加 CPUOffloadingSpec #24251
[CI/构建] 在模型实际发布之前跳过 Qwen3-VL 初始化测试 #25394
[TPU] 更新 torch_xla 依赖以兼容 PyPI #25278
[前端] 为内置工具和传递头信息的 Responses API 添加 MCP 工具 #24628
[Bug修复] 修复自定义操作测试 #25429
[核心] 删除过于激进的 whisper 断言 #25408
[Bug修复] 修复缺失的 clear_connector_metadata #25397
[BugFix][DP/EP] 修复当 BS <= DP 时执行缓慢的问题 #25407
[性能] 移除 cutlass_mla 中的输入填充并优化 v_proj 输出处理 #25184
[性能] 为 per_block_cast_to_fp8 应用 torch.compile #24611
[V0 弃用] 移除平台 v1 控制接口 #25410
[V0 弃用] 移除 _set_default_args_v0 函数 #25409
[Bug] 修复长上下文 OOM 问题 #25290
[功能] 支持 MRoPE + YaRN #25384
[XPU] 修复 compile_size 为 None 的情况 #25433
[基准测试] 允许跳过 bench serve 的就绪检查 #25420
[Bug修复] 移除上下文并行 MLA 的连续输出要求 #25414
[文档] 修复 vllm/lora/ops 中的 griffe 警告 #25369
[DP/EP][GPTOSS] 为 GPTOSS DP/EP 使用 triton matmul-ogs 内核 #24588
[NIXL][OOT 平台] 支持 nixl_connector 与其他 nixl_backend 以及 OOT 平台 #25121
[模型] 为 Qwen2-VL 中的 ViT 启用数据并行 #25445
处理 Triton 内核导入异常 #25319
[前端] 为 qwen3-coder 添加基于 XML 的工具解析器 #25028
[杂项] 将 DP for ViT 代码移动到模型执行器目录内 #25459
[测试]：Qwen3 案例中 Hermes 工具解析器流输出错误 #25203
[Bug修复] 修复 idefics3 tie_word_embeddings #25454
[核心] 优化 LoRA 权重加载 #25403
[文档] 基准服务错误的参数 #25474
[CI/构建] 修复禁用的 v1 注意力后端选择测试 #25471
[BugFix] 注册 expert_map 作为 wake_up 和 sleep 的命名缓冲区 #25458
[P/D] 支持 NIXL 连接器在干净关闭期间断开连接 #24423
[测试/文档] 使 NixlConnector 示例更清晰 #24249
[XPU] 修复 XPU 上 MoE DP 的准确性问题 #25465
[用户体验] 将 kv-cache-memory 日志级别更改为调试 #25479
[V1] 移除混合模型的 V0 代码路径 #25400
[核心/DBO][2/N] 双批次重叠添加 DeepEP 高吞吐量支持和预填充支持 #24845
为 GuidedDecodingParams 添加向后兼容性 #25422
[内核] 支持压缩张量 MoE 的阻塞 fp8 量化 #25219
[Bug修复] 修复 per_token_group_quant.cu 中的未定义行为（UB） #24913
[日志] 将 kv 缓存内存日志从字节优化为 GiB #25204
使用宏防护 CUDA 函数以在 grouped_topk_kernel.cu 中实现向后兼容 #25346
[V1][内核] 为 reshape_and_cache_flash 添加 Triton 实现 #24503
[杂项] 减少 auto_tune 的初始化时间 #23682
[Spec Decode][CI] 为 examples/spec_decode.py 添加端到端测试并防止破坏接受长度 #24531
[核心] 确保 LoRA 线性尊重 base_layer 的 tp_size 和 tp_rank #25487
[ROCm] 为 dtypes fp16,bf16,fp8 添加 skinny gemm 偏置支持 #24988
[核心] 为所有归约添加 nccl 对称内存 #24532
[性能] 将 apply_w8a8_block_fp8_linear 移动到一个操作类中 #24666
[性能] 将默认的 CUDAGraphMode 从 PIECEWISE 更改为 FULL_AND_PIECEWISE #25444
[推测器][推测解码] 修复 gpt-oss eagle3 准确性问题 #25406
[Bug修复] 将 gpt-oss 的最大 cudagraph 大小降低到 992 以与 FA3 兼容 #25508
默认启用对称内存归约，仅在 TP 上启用 #25070
[CI] 修复 Pre-commit 问题 #25497
[Bug修复] gpt-oss 容器工具输出错误 #25485
[构建] 更新 Xgrammar 至 0.1.25 #25467
[Bug修复] 修复 #24588 引起的导入错误 #25481
[CI/构建] 修复并重新启用 CI 上的 v1 PP 测试 #25496
[核心] 尽可能使用 KVCacheBlock 代替 dict[block_id, KVCacheBlock] #24830
[V0 弃用] 移除占位符注意力 #25510
添加 VLLM_ENABLE_INDUCER_MAX_AUTOTUNE 和 VLLM_ENABLE_INDUCER_COORDINA… #25493
修复 triton_reshape_and_cache_flash.py 中的 triton 导入问题 #25522
[gpt-oss][Bug修复] 移除 ResponseAPI 中要求 resp_ 的逻辑 #25428
移除 direct_register_custom_op 中冗余的 mutates_args 和 dispatch_key #25512
[Bug修复] 通过确保一致的 NCCL 内存核算来解决 vLLM 副本中的 OOM 问题 #25359
添加 VLLM_NVTX_SCOPES_FOR_PROFILING=1 以启用 nvtx.annotate 范围 #25501
[内核] [Mamba] 从 _chunk_cumsum_fwd_kernel 的可调配置列表中移除 BLOCK_H=1 #25197
[ROCm] 对 gptoss 进行小的功能更改 #25201
[性能] 增加 FA3 全 cudagraph 的默认最大分割数 #25495
[Bug修复] [B200] cutlass_mla - 确保 kv_split == 1 当批量大小 > 1 #25509
[Bug修复] AssertionError: 不要捕获 uniform batch 中的 num_reqs > max_num_reqs #25505
改进在结构化输出测试中 json.loads() 失败时的输出 #25483
添加 CUTLASS FP8 MoE 基准测试脚本和内核配置 #25302
[Bug] 修复 AttributeError: ‘FusedMoE’ 对象没有属性 ‘w13_weight_scale’。你是不是想说：‘w13_weight_scale_inv’ #25519
[BUG] 允许 RunAI Streamer 和 Torch.compile 缓存一起使用 #24922
[模型] 支持 SeedOss Reason Parser #24263
[V1][指标] 为每个请求添加 TPOT 直方图 #24015
[Bug修复] 为 trtllm-gen 使用单独的 FlashInfer 工作区缓冲区 #25520
[核心] 为 UnquantizedLinearMethod 支持 weight_loader_v2 #23036
[编译] 修复 AMD 编译错误 #25518
[Bug修复] 修复 MLA 断言与 CUTLASS MLA 的问题 #25478
[修复]：为 Arm 4bit 融合 MoE 添加支持 #23809
[KV 共享] 重新引入 Gemma3n 模型从 #22628 的更改 #24357
[Spec Decode] 启用 FlashInfer Spec 解码 #25196
[性能] 修复 fla gated delta rule 在运行时 jit 编译的问题 #25432
[Bug修复] [前端] 清理 gpt-oss 非流式聊天工具调用 #25514
[TPU][Bug修复] 修复 tpu 工作线程中缺失的 apply_model #25526
[杂项] 如果发生 “Already borrowed” 错误，则重试 HF 处理 #25535
[Bug修复][CPU] 跳过在 CPU 上不支持的自定义操作注册 #25534
[CI/构建] 修复 v1 OOT 注册测试 #25547
[杂项] 将处理上下文移动到多模态目录 #25548
[CI/构建] 添加夜间 prime-rl 集成测试 #25207
[V0 弃用] 移除 max_seq_len_to_capture #25543
[Bug修复] 潜在修复 FA3 全-cudagraph IMA #25490
[杂项] 更新警告消息 #25566
[Bug修复] 修复 Dummy 视频帧数计算 #25553
[Bug] 修复导入和单元测试 #25558
[基准测试] 修复结构化输出基准测试中的回归 #25500
[文档] 修复 nixl kv_connector_extra_config.backends 键 #25565
[Bug修复] 修复 DeepSeekV31ToolParser 以正确解析非流式输出中的多个工具 #25405
将 DeviceConfig、ObservabilityConfig、SpeechToTextConfig 移动到各自的文件中 #25564
[杂项] 改进 jsontree 的类型注解 #25577
[ROCm][Bug修复] 仅在未明确禁用时基于 aiter 启用 +rms_norm #25275
[ROCm][构建][Bug修复] 修复 ROCm 基础 Docker whls 安装顺序 #25415
修复和更新 bench_per_token_quant_fp8 #25591
[Bug修复] 在从对象存储获取模型时添加缓存模型 #24764
支持来自 Flashinfer 的 mnnvl all2allv #21003
在使用 DBO 捕获 cudagraphs 时抑制良性的 cuBLAS 警告 #25596
[文档] 在 CI 中为文档构建启用 fail_on_warning #25580
[V0 弃用] 移除注意力模块中未使用的类 #25541
[日志] 优化当 DeepEP HT 禁用 CUDA Graphs 时的日志输出 #25531
功能：为 Hopper 和 Blackwell 的专家并行提供 BF16 FlashInfer Fused Cutlass MoE #25503
[重构] 使用 DeepGEMM 的列优先（Col Major）TMA 对齐张量 #25517
改进 --help 命令以提升用户体验 #24903
[杂项] 将 c10::optional 替换为 std::optional #25602
[模型] 改进 DotsOCRForCausalLM #25466
[内核] 为 Triton 后端支持 DCP（推测解码相关？） #25132
[Bug] 由于 BasevLLMParameter.torch_function 调用了被禁用的 super()，导致 Dynamo 不支持 #25613
为密集模型启用 Fbgemm NVFP4 #25609
[模型] 添加 LongCat-Flash #23991
优化：消除重复的 split_enc_dec_inputs 调用 #25573
[Bug修复] 修复 apply_temperature 以避免概率中出现 nan #24734
[杂项] 简化 PoolerOutput 并将其移动到 v1/outputs #25629
将 CwmForCausalLM 映射到 llama 和 LlamaForCausalLM #25611
笔误：移除重复的 is #25641
撤销 “[性能] 将 apply_w8a8_block_fp8_linear 移动到操作类…” #25607
[修复] 为 AArch64/ppc64le 和 Darwin 更新 cpu-build.txt 中的 torch 版本 #25579
[杂项] 修复 Qwen3-VL 中 video_grid_thw 的类型标注 #25646
[Bug修复] 添加 triton.language.tensor 占位符 #25649
[Bug修复] 修复 Qwen3-VL 在视频分析中 max_num_video_tokens 的计算 #25648
[mypy] 进一步改进多模态（MM）类型注解 #25654
[Bug修复] 解析 SpeculativeConfig 错误 #25142
[V0 弃用] 移除不可达的 model_config.supported_tasks #25642
为 guided_... API 添加向后兼容性 #25615
[CI/构建] 修复不稳定的 entrypoints 测试 #25663
[XPU][Triton] 在 triton_reshape_and_cache_flash 中添加 XPU 配置 #25643
[硬件][RISC-V] 为 vLLM 添加标量（scalar）的 riscv64 支持 #22112
[mypy] 修复与元组相关的错误类型注解 #25660
[杂项] 默认对挂起/繁忙/空闲状态发出警告 #25627
[torch.compile] 使 Query 量化可融合 #24914
[CPU] 更新 torch 至 2.8 并修复 TorchSDPAMetadata 中缺失的字段 #25652
[用户体验] 将关于 PyTorch 回退的警告切换为调试日志 #23750
[Bug修复] 修复 Transformers v4.56 之后 InternS1 的视频处理 #25644
[杂项] 移除仓库中的无用文件 #25678
[日志] 移除 TORCH_NCCL_AVOID_RECORD_STREAMS 以消除一个警告 #25532
[BUGFIX] 修复当超出限制时 Eagle 推测解码模型崩溃的问题 #24662
撤销 “[Bug] Dynamo 不支持，因为 BasevLLMParameter.torch_function 调用了被禁用的 super()” #25681
[Bug修复] 修复 DBO 挂起问题 #25625
[模型] 为推理解析器构造函数添加可选参数 #25554
[模型] 定义 merge_by_field_config 多模态（MM）接口 #25676
[V0 弃用] 清理编译配置中的 V0 回退逻辑 #25675
[V0 弃用] 移除注意力后端名称中的 _VLLM_V1 后缀 #25489
[V0 弃用] 清理 LoRA 相关内容 #25686
[杂项] 简化 test_argsort_mm_positions #25690
[优化] 简化 InputPreprocessor #25702
[优化] 在 get_model_architecture 中使用更廉价的缓存键 #25682
[Spec Decode] 添加批量并行 Ngram，最高可降低 8 倍开销 #24986
[核心] 为 LLMEngine 启用命令行日志 #25610
[模型] 将 NemotronH_Nano_VL 重命名为 NemotronH_Nano_VL_V2 #25708
修复 routing_bias 的数据类型 #25711
[重构] 移除 DeepGEMM 操作注册 #25710
[杂项] 不在 worker 端记录 shm 出队延迟警告 #25720
从 355_wip 向上游提交 Llamas 3.1 405B fp4 相关变更 #25135
[核心] 强制对编码器-解码器使用 PIECEWISE CUDAGraph 模式 #25701
[杂项] 移除 shm_broadcast.py 中不必要的内存视图 #25721
EVS 支持（视频 token 剪枝） #22980
[CI/构建] 修复文档构建警告：未能获取 ‘name: description’ 对 #25733
修复：撤销在 MsgpackEncoder._encode_tensor 中的 cast to cpu 操作，以避免隐藏的性能回退 #25738
性能：除非启用了 prompt_embeds，否则避免将 inputs_embeds 张量复制到 GPU #25739
[硬件][AMD][模型] 为 MI300X 上的 GLM-4.5 提供 Triton MoE 调优配置 #25703
修复：打印 outputt offline_inference/base/chat.py 示例的输出 #25744
[Qwen3-Next][GDN] 修复 GDN 元数据中的 cuda graph 捕获 bug 以及 causal_conv_1d 中的步幅 bug #25743
移除 compute_causal_conv1d_metadata 中的 cuda 硬编码 #25555
[杂项] 重构推测配置 #25657
[Bug修复] 修复 FusedMoE.process_chunk 中的共享专家/零专家代码 #25698
支持 LongCat-Flash-Chat 工具调用 #24083
[文档] 更新批处理级 DP 文档 #25757
[模型] 重构 Mamba2 的变长和元数据 #21467
[CI] 修复 test_shared_storage_connector_hashes #25748
[Bug修复] 正确中止池化请求 #25734
[CI/构建] 拆分分布式测试 #25572
[CI/构建] 修复部分 V1 测试未被运行的问题 #25569
[量化] 为 GPTQ 配置添加字段以跳过未量化的模块 #25455
[Bug修复] 修复始终使用 dbo_decode_token_threshold（并忽略 dbo_prefill_token_threshold）的问题 #25622
[ray][指标] 为 OpenTelemetry 兼容性，将 Ray 中的 ‘:’ 替换为 ‘_’ #25439
[修复][torch.compile] 修复 unique_filepath #25732
支持 Minicpm3 模型的 Eagle3 #24243
[文档]：改进 CPU(x86) 从源码构建 wheel 的章节 #25617