亮点
本次发布包含 538 次提交,207 名贡献者(其中 65 名为新贡献者)!
- 本次发布完成了 V0 引擎的移除。V0 引擎相关代码(包括 AsyncLLMEngine、LLMEngine、MQLLMEngine、所有注意力后端及相关组件)已被移除。目前代码库仅保留 V1 引擎。
- 默认开启 FULL_AND_PIECEWISE 作为 CUDA graph 模式,对多模型(尤其细粒度 MoE)有更佳性能,同时兼容仅支持 PIECEWISE 模式的模型。
模型支持
- 新架构:DeepSeek-V3.2-Exp (#25896)、Qwen3-VL 系列 (#24727)、Qwen3-Next (#24526)、OLMo3 (#24534)、LongCat-Flash (#23991)、Dots OCR (#24645)、Ling2.0 (#24627)、CWM (#25611)。
- 编码器:支持 RADIO 编码器 (#24595),Transformers 后端支持仅编码器模型 (#25174)。
- 任务扩展:BERT token 分类/命名实体识别(NER)(#24872),多模态模型支持池化任务 (#24451)。
- 视觉编码器数据并行:InternVL (#23909)、Qwen2-VL (#25445)、Qwen3-VL (#24955)。
- 推测解码:MiniCPM3 的 EAGLE3 (#24243) 和 GPT-OSS (#25246)。
- 特性:Qwen3-VL 纯文本模式 (#26000)、EVS 视频 token 剪枝 (#22980)、Mamba2 TP+量化 (#24593)、MRoPE + YaRN (#25384)、Whisper 支持 XPU (#25123)、LongCat-Flash-Chat 工具调用 (#24083)。
- 性能:GLM-4.1V 通过融合 RMSNorm 降低 916ms TTFT (#24733)、GLM-4 MoE SharedFusedMoE 优化 (#24849)、Qwen2.5-VL CUDA sync 移除 (#24741)、Qwen3-VL Triton MRoPE 内核 (#25055)、Qwen3-Next FP8 检查点 (#25079)。
- 推理:SeedOSS 解析器 (#24263)。
引擎核心
- KV 缓存卸载:CPU 卸载+LRU 管理 (#19848, #20075, #21448, #22595, #24251)。
- V1特性:Prompt embedding (#24278)、分片状态加载 (#25308)、FlexAttention 滑动窗口 (#24089)、LLM.apply_model (#18465)。
- 混合分配器:流水线并行 (#23974),可变隐藏层大小 (#25101)。
- 异步调度:单处理器执行器支持 (#24219)。
- 架构:Tokenizer group 移除 (#24078),多模态缓存共享内存 (#20452)。
- 注意力:Triton 支持混合 SSM/注意力 (#21197),ViT 支持 FlashAttention 3 (#24347)。
- 性能:FlashInfer RoPE 提速 2 倍 (#21126),融合 Q/K RoPE 性能提升 11% (#24511, #25005),推测解码开销降低 8 倍 (#24986),FlashInfer 推测解码提速 1.14 倍 (#25196),模型信息缓存 (#23558),inputs_embeds 避免复制 (#25739)。
- LoRA:权重加载优化 (#25403)。
- 默认设置:CUDA graph 模式 FULL_AND_PIECEWISE (#25444),Inductor 独立编译默认禁用 (#25391)。
- torch.compile:CUDA graph Inductor 分区集成 (#24281)。
硬件与性能
- NVIDIA:FP8 FlashInfer MLA 解码 (#24705),BF16 融合 MoE 支持 Hopper/Blackwell 专家并行 (#25503)。
- DeepGEMM:默认启用 (#24462),吞吐提升 5.5% (#24783)。
- 新架构:RISC-V 64 位 (#22112)、ARM 非 x86 CPU (#25166)、ARM 4 位融合 MoE (#23809)。
- AMD:ROCm 7.0 (#25178)、GLM-4.5 MI300X 调优 (#25703)。
- Intel XPU:MoE DP 精度修复 (#25465)。
大规模服务与性能
- 双批次重叠(DBO):计算重叠机制 (#23693),DeepEP 高吞吐+预填充 (#24845)。
- 数据并行:torchrun 启动器 (#24899)、Ray placement groups (#25026)、Triton DP/EP 内核 (#24588)。
- EPLB:Hunyuan V1 (#23078)、Mixtral (#22842)、静态分配 (#23745)、开销降低 (#24573)。
- 分离式服务:KV 传输指标 (#22188)、NIXL MLA 潜在维度 (#25902)。
- MoE:共享专家重叠优化 (#24254)、DeepSeek-R1 SiLU 内核 (#24054)、NaiveAllToAll 后端支持 Allgather/ReduceScatter (#23964)。
- 分布式:NCCL 对称内存吞吐提升 3-4% (#24532),TP 默认启用 (#25070)。
量化
- FP8:每 token 组量化 (#24342),硬件加速指令 (#24757),torch.compile KV 缓存 (#22758),分页注意力更新 (#22222)。
- FP4:NVFP4 支持稠密模型 (#25609)、Gemma3 (#22771)、Llama 3.1 405B (#25135)。
- W4A8:预处理加速 (#23972)。
- 压缩张量:MoE 支持块状 FP8 (#25219)。
API 与前端
- OpenAI:所有 token 支持提示 logprobs (#24956),logprobs=-1 支持全词表 (#25031),推理流式事件 (#24938),Responses API MCP 工具 (#24628, #24985),引擎死亡返回 503 (#24897)。
- 多模态:Media UUID 缓存 (#23950),图片路径格式 (#25081)。
- 工具调用:Qwen3-Coder XML 解析器 (#25028),Hermes 风格 token (#25281)。
- CLI:–enable-logging 开关 (#25610),–help 优化 (#24903)。
- 配置:推测模型引擎参数 (#25250),环境校验 (#24761),NVTX profiling (#25501),guided decoding 兼容性 (#25615, #25422)。
- 指标:V1 TPOT 直方图 (#24015),隐藏弃用的 gpu_ 指标 (#24245),KV 缓存显示 GiB (#25204, #25479)。
- 用户体验:移除误导性量化警告 (#25012)。
安全
- GHSA-wr9h-g72x-mwhm
依赖
- PyTorch 2.8 for CPU (#25652),FlashInfer 0.3.1 (#24470),CUDA 13 (#24599),ROCm 7.0 (#25178)。
- 构建要求:C++17 全局强制 (#24823)。
- TPU:弃用
xm.mark_step,改用torch_xla.sync(#25254)。
V0 移除
- 引擎:AsyncLLMEngine (#25025)、LLMEngine (#25033)、MQLLMEngine (#25019)、core (#25321)、model runner (#25328)、MP executor (#25329)。
- 组件:注意力后端 (#25351)、encoder-decoder (#24907)、输出处理器 (#25320)、采样元数据 (#25345)、Sequence/Sampler (#25332)。
- 接口:LoRA (#25686)、异步输出处理器 (#25334)、MultiModalPlaceholderMap (#25366)、seq group 方法 (#25330)、占位注意力 (#25510)、输入 embedding (#25242)、多模态注册表 (#25362)、max_seq_len_to_capture (#25543)、注意力类 (#25541)、混合模型 (#25400)、后端后缀 (#25489)、编译回退 (#25675)、默认参数 (#25409)。
变更内容
- [Qwen3-Next] 为 H20 TP=1,2,4,8 配置 MoE #24707
- [文档] 更新 ROCm 安装文档部分 #24691
- 支持将多模态模型转换为池化任务 #24451
- 修复当使用提示嵌入时,BLOOM 模型在 vLLM 和 HuggingFace 之间的实现差异 #24686
- [Bug修复] 修复 MRoPE 在 CPU 上的调度问题 #24712
- [Bug修复] 修复 Qwen3-Next 的流水线并行(PP)问题 #24709
- [CI] 修复不稳定测试 v1/worker/test_gpu_model_runner.py::test_kv_cache_stride_order #24640
- [CI] 添加 ci_envs 以方便本地测试 #24630
- [CI/构建] 在仅支持 V1 的 CPU 后端跳过提示嵌入测试 #24721
- [杂项][gpt-oss] 为提及 harmony 或与内置工具调用相关的 PR 添加 gpt-oss 标签 #24717
- [Bug修复] 修复 BNB 名称匹配问题 #24735
- [内核][CPU] 重构 cpu_attn.py:_run_sdpa_forward 以优化内存访问 #24701
- [睡眠模式] 为在线量化节省内存 #24731
- [多模态] 在 VIT 中添加 FA3 #24347
- [多模态] 移除旧的多模态字段,改用 MultiModalFeatureSpec #24548
- [文档]:修复各种文件中的拼写错误 #24726
- [文档] 修复 mkdocs 构建中的警告(续) #24740
- [Bug修复] 修复 MRoPE 在 XPU 上的调度问题 #24724
- [Qwen3-Next] 为 H100 TP=1,2 和 TP2/EP 配置 MoE #24739
- [核心] 基于共享内存的多模态数据缓存与进程间通信对象存储 #20452
- [Bug修复][前端] 修复 --enable-log-outputs 与文档不匹配的问题 #24626
- [模型] 优化和简化 _validate_and_reshape_mm_tensor #24742
- [模型] 防止 Qwen2.5-VL 中的 CUDA 同步 #24741
- [模型] 在 GLM-4.1V 模型中切换到 Fused RMSNorm #24733
- [用户体验] 移除 AsyncLLM torch profiler 被禁用的日志 #24609
- [CI] 加速 CI 中的模型单元测试 #24253
- [Bug修复] 修复 #20452 与 #24548 之间的不兼容问题 #24754
- [CI] 当添加/移除标签时触发 BC Linter #24767
- [基准测试] 允许向被测端点传递任意请求头 #23937
- [编译 Bug] 修复 Inductor 图输出中的形状问题 #24772
- 调整模式顺序以确保正确识别 out_proj 层 #24781
- [注意力][FlashInfer] 启用 FP8 FlashInfer(TRTLLM)MLA 解码 #24705
- 将 FLASHINFER_MLA 添加到后端选择器测试中 #24753
- [Qwen3Next] 修复大 batch size 下 cuda graph 捕获条件问题 (#24660) #24667
- [核心] 支持单处理器执行器(uniproc executor)的异步调度 #24219
- [前端][多模态] 当提供 UUID 时允许跳过媒体数据 #23950
- [模型] 添加 Olmo3 模型实现 #24534
- [Bug修复] 修复 GPUModelRunner 缺少 lora_manager 属性的问题 #24762
- [日常维护] 移除未使用的批量 RoPE 操作和内核 #24789
- [文档] 修复 mkdocs 构建中的警告(续) #24791
- [文档] 移除 Neuron 安装文档,因为该后端已不存在 #24396
- [文档]:移除 404 错误的超链接 #24785
- [性能] 使用 NVIDIA 硬件加速指令进行 float 到 fp8_e4m3 量化 #24757
- [内核][DP/EP] 优化 R1 的 Silu 内核 #24054
- [核心][多模态] 缓存 supports_kw #24773
- [CI 失败] 修复 test_flashinfer_cutlass_mxfp4_mxfp8_fused_moe 测试 #24750
- [杂项] 修正过时的注释 #24765
- [文档]:修复各种文件中的拼写错误 #24798
- [CI][Spec Decode] 再次调整 flaky ngram spec 解码测试的阈值 #24771
- 移除 xfer_buffers 中的冗余赋值,这是一个小修复 #24732
- [次要] 简化 CUDA 设备检查的重复代码 #24793
- [日常维护] 对非 PP 路径进行少量简化 #24810
- [多模态][性能] 将 Q 和 K 的 apply_rope 合并为一个操作 #24511
- [杂项] 使用 BaseClient 改进 s3_utils 的类型提示 #24825
- [性能] 修复 DeepGEMM 连续布局问题,提升 5.5% 吞吐量 #24783
- 修复 encode_base64 的采样率类型 #24826
- [基准测试] 当同时使用 dataset-name random 和 dataset-path 时报错提示 #24819
- 强制全局使用 C++17 以避免编译错误 #24823
- [日常维护] 移除 ipex_ops 警告 #24835
- [Spec 解码] 支持 DP 模式下的 Spec 解码指标 #24049
- [混合分配器] 支持流水线并行 #23974
- [文档] 尝试改进 frameworks/streamlit.md #24841
- [kv 缓存] 在最后更新 num_free_blocks #24228
- [前端] 在推理内容中跳过 stop #14550
- [Bug修复] MiDashengLM 模型在并发测试中出现连接错误 #24738
- [文档]:修复各种文件中的拼写错误 #24821
- [杂项] 将 interval 重命名为 max_recent_requests #24229
- [杂项] 自行安装 KVConnectors #24867
- [P/D] kv_output_aggregator 支持异构 #23917
- [单元测试] 增强 free kv cache block queue 的 popleft_n 功能 #24220
- [XPU] 设置一致的默认 KV 缓存布局 #24745
- [杂项] 修复示例 openai_pooling_client.py #24853
- [模型]:支持 Ling2.0 #24627
- [Bug修复] 修复 GLM4.1V 多模态处理器与 Transformers v4.56 的兼容性 #24822
- Fp8 分页注意力更新 #22222
- 恢复现有的 torch script #24729
- [使用] 改进未量化模型权重初始化的错误处理 #20321
- 将 MultiModalConfig 从 config/init.py 移动到 config/multimodal.py #24659
- [转换] 确定性 Hadacore 转换 #24106
- 将 num_tokens_across_dp 的通信从 gloo 切换到 nccl #24105
- 将 Flashinfer 升级到 0.3.1 #24868
- [gpt-oss] 在 ResponsesRepsonse 中添加 IncompleteDetails #24561
- [gpt-oss][1a] create_responses 流式输出为 BaseModel 类型,api server 仍为 SSE #24759
- [性能] 移除 cutlass_mla 中多余的 clone() 调用 #24891
- [Bug] 修复 Cutlass Scaled MM 编译错误 #24887
- [CI] 修复 arm 架构 wheel 的命名 #24898
- [测试] 修复测试中 kv hash 的初始化 #24273
- [编译] 修复 noop_elimination 传递并为其添加测试 #24880
- 将 “HuggingFace” 修改为 “Hugging Face”(在“与 Hugging Face 集成”文档中) #24889
- 更新 flashinfer、mla、fused_moe 的 CODEOWNERS #24906
- [弃用] 移除 DeepGEMM 旧符号包装器 #24902
- [ROCm][Bug修复] 修复存在偏置的情况 #24895
- 添加 pytest-cov 和 .coveragerc #24778
- [Bug] 修复 is_flashmla_supported 检查错误 #24774
- [CI] 为 Deepseek 模型进行小型精度评估测试 #24259
- [指标] 隐藏带有 gpu_ 前缀的已弃用指标 #24245
- [文档] 更新如何使用现有 torch 二进制文件的说明 #24892
- 将 flashinfer 升级到 0.3.1 #24470
- [XPU] 修复循环导入错误。 #24927
- 移除 V0 版本编码器-解码器支持 #24907
- [Bug修复] 修复启用流水线并行时序列并行性的 Bug #24021
- [Bug][Spec Dec]:修复 Eagle3 起草器在 FP8 目标下 kv_cache 数据类型不匹配问题 #24505
- [QWEN NEXT] 融合 MoE 内核优化配置 #24924
- [基准测试] 在调优后的 MoE 配置中添加 Triton 版本信息 #24769
- [Bug修复] 移除在必需工具选择流式传输中重复的 token #23312
- [Mamba] 支持 mamba2 mixer 在 TP>1 且满足
n_groups % tp_size == 0时进行量化 #24593 - [功能][EPLB] 为 MoE 模型提出一种新的静态 EPLB 放置策略 #23745
- 将 SpeculativeConfig 从 config/init.py 移动到 config/speculative.py #24904
- [文档] 将 benchmarks 的 README 移动到 contributing 指南中 #24820
- 功能:为 vLLM 添加 Grafana 和 Perces 监控仪表盘 #23498
- (文档):在 MacOS CPU 上构建时设置 cmake 的 C++ 兼容标准 #23483
- [CI] 在 CI 中添加解码上下文并行(Decode Context Parallelism, DCP)测试 #24487
- [模型] 清理并简化 V0 和 V1 中 Mamba2 的元数据使用 #24331
- [核心][多模态哈希器] 在哈希过程中不要将 memoryview 转换为 bytes #24925
- [核心/DBO][1/N] 为 vLLM 添加双批次重叠机制 #23693
- [Bug修复] 修复当 disable_hybrid_kv_cache_manager 为 true 时无法运行编码器模型的问题 #24571
- [杂项] 将已移除的编码器-解码器模型添加到先前支持的模型列表中 #24961
- 在 V1 中直接从 VLLM 配置获取最大编码器长度 #24866
- [gpt-oss][1b] 流式传输中添加 item id 和 content id #24788
- [杂项] 将 vllm/v1 的代码负责人添加到 vllm/v1/core 中 #24928
- [ROCm] 添加 ROCm 相关依赖 #24900
- [gpt-oss][1][Bug修复] 修复流式传输的最终输出 #24466
- 在测试中使用 kwargs 传递 EngineCoreRequest 的长参数列表,并修复多余的 kwargs #24987
- 修复 torch.compile 下的 fp8 kv cache 支持 #22758
- [性能] 为 FP8+FP4 Marlin MoE 重用工作空间 #20500
- [CI][Bug修复] 修复失败的 Blackwell 测试 #24993
- [CI] 为 Blackwell 执行 GPT-OSS GPQA 评估测试 #24920
- [FP8] 将逐 token 组的量化支持扩展到 QuantFP8 #24342
- 移除 nixl 依赖的源码编译 #24874
- [文档] 为 generate_cmake_presets.py 添加 --force-overwrite 选项 #24375
- [核心] 使用 CpuGpuBuffer 作为 block table 张量 #24795
- [基准测试] 添加 MMVU 视频数据集支持并清理已弃用的数据集 #24719
- [用户体验] 强制要求环境变量如 VLLM_ATTENTION_BACKEND 等取有效值 #24761
- [文档] 修复无效的文档链接 #25017
- [用户体验] 移除“量化尚未完全优化”的日志 #25012
- [杂项] 修复 ValueError 中的拼写错误 #24995
- [核心] 从调度器配置中获取 num_encoder_tokens #24989
- [V0 弃用] 移除 MQLLMEngine #25019
- [模型] 支持 Qwen3-VL 模型系列 #24727
- [Rocm][量化] 修复 quark ptpc moe 并添加测试用例 #24649
- 添加更多文档并提升 lognormal 分布(benchmark_serving_multi_turn)的易用性 #23255
- [XPU] 修复 xpu 模型运行器调用 torch.cuda API 的问题 #25011
- [EPLB] 为 Mixtral 模型支持 EPLB #22842
- [核心][多模态哈希器] 哈希图像时不转换图像模式 #24969
- [模型] 将参数前缀传递给 LLMHead #24862
- [模型] 将 SharedFusedMoE 应用于 glm4_moe #24849
- [核心] 移除 vLLM 中的分词器组 #24078
- [文档] 修复 base_static_graph.py 中的 griffe 警告 #25018
- [DP] 通过 ray_device_key 创建放置组 #25026
- [前端] 支持返回所有提示 logprobs #24956
- [Bug修复] 启用 DOTALL 以匹配 extract_tool_call_required_streaming 中多行的 tool_call 参数 #24668
- [杂项] 避免使用已弃用的 AutoModelForVision2Seq #25065
- 为 vLLM 添加 RADIO 视觉编码器支持 #24595
- [Bug修复] 修复 CPU 模型运行器和 OneDNN 内核检查中 Stream 的使用问题 #25046
- 应用针对 CUDA 13 的修复 #24599
- [修复] lora 基准测试通过 no_lora_flag_cpu #23774
- [Bug修复][Qwen3-Next] 修复 qwen3-next 的 MTP 实现中的变长问题 #24957
- [文档] 为消除 griffe 构建警告改进代码格式和注释 #25010
- 移除旧的 cutlass mla #23961
- [文档] 修复 vllm/benchmarks/datasets.py 中的 docstring 参数格式 #24970
- [CI Bug修复] 修复失败的 test_invalid_env 测试 #25078
- [V0 弃用] 移除 V0 核心测试 #25082
- 清理:移除 adapter commons #25045
- 移除未使用的 find_cuda_init 辅助脚本 #25044
- [V0 弃用] 移除未使用的输出处理器工具 #25023
- 将 IOProcessor 的日志级别从 info 改为 debug #24999
- [CI] 撤销 prepare_prompts 和 check_answers 的更改 #25087
- [V0 弃用] 移除 test_sequence.py 中的 V0 测试 #25088
- [CI Bug修复] 由于分词器重构导致 test_model_load_with_params 测试失败,修复该问题 #25086
- [V1] Logits 处理器文档 #22919
- [杂项] 更新 KV 连接器和 V1 卸载的负责人 #25041
- [Bug修复] 更新 bc_linter_include 的导入路径 #24766
- [BUG] 从远程拉取文件时排除 .pth 文件 #25092
- [内核] 为 W4A8 加速预处理时间 #23972
- [gpt-oss][2] 修复流式传输的类型定义 #24556
- [Bug修复][B200] 修复 cutlass_mla 挂起问题 #24966
- [ROCm][Bug修复] 修复 aiter mha fp8 问题 #24991
- 暂时禁用失败的 GPT-OSS 评估(Blackwell) #25107
- [Bug修复] 重构 Flashinfer TRTLLM 注意力内核选择逻辑 #24600
- 添加批处理自动调优脚本 #25076
- [Bug修复] 修复 silu_mul + nvfp4 量化融合内核的精度问题 #24833
- [内核] 将 FusedMoEQuantConfig 的构造委托给 FusedMoEMethodBase 子类 #22537
- [V0 弃用] 移除 V0 引擎测试 #25114
- [V0 弃用] 移除 V0 跟踪与指标测试 #25115
- [V0 弃用] 移除其他 V0 测试 #25118
- [V0 弃用] 跳过 PP 测试 #25128
- [内核] 默认启用 DeepGEMM #24462
- [MM 编码器] 为 Qwen3-VL 模型系列应用 DP ViT #24955
- [文档] 清理 contributing 的 README #25099
- [核心][多模态] 清理 MultiModalCache #25006
- [Bug修复][Qwen3-Next] 为 qwen3-next 中的 shared_expert 和 qwen2moe 中的 mlp 添加前缀,以便成功加载量化模型中被忽略的参数 #24960
- [内核] 通过组合而非分发来重叠共享专家 #24254
- [模型] 为 InternVL 视觉编码器启用数据并行 #23909
- 在 API 层面上将 prompt logprobs 标记为与 prompt embeds 不兼容 #25077
- [XPU] 在 XPU 平台上支持 Whisper 模型 #25123
- [EPLB] 为 hunyuan_v1 模型添加 EPLB 支持 #23078
- [V0 弃用] 移除更多 V0 测试 #25117
- [Spec Decode] 高效的填充推测 #24539
- [基准测试] 添加峰值吞吐量指标和图表 #23867
- [命令行接口] 在 CLI 的 chat 和 completion 命令中使用流式传输 #23769
- [内核] 为分组 topk cu 提供更好的 inf 处理 #24886
- [文档] 修复 API 参考 #25140
- 从 text 配置中获取 Gemma3 MM 的 sliding_window #25085
- [Bug修复] 当使用 s3 模型时无法使用默认的 load_format #24435
- [Qwen] 为 qwen3-next 添加 fp8 检查点支持 #25079
- 为 ImagePrompt 的 data_format 添加 ‘path’ 选项 #25081
- [文档] 修复交叉引用警告 #25058
- [日常维护] 清理 guided 命名空间,移动到结构化输出配置 #22772
- 修复:为某些工具链上的 OpenMP 兼容性显式添加 #include <omp.h> #24951
- silu-v1:修复在 max-reduction 中未使用 EPS 的问题 #25069
- [前端] 支持将 logprobs 设置为 -1 #25031
- [模型] 改进 Pooling 模型 #25149
- 将 StructuredOutputsConfig 从 config/init.py 移动到 config/structured_outputs.py #25153
- [文档] 修复 openai_compatible_server.md 中 pooling-params 文档引用 #24939
- [文档] 在 LLMEngine 和 AsyncLLM 中添加并行采样用法说明 #24222
- 修复文档中的前向引用警告 #25150
- 修复 validate-config 的 pre-commit 检查 #25157
- [Bug修复][Mamba] 修复 Conv State Kernel 的 FP32 支持 #24883
- [杂项] 清理 vllm bench serve 中的标志 #25138
- [结构化输出][重构] 将 apply_grammar_bitmask() 方法从 ModelRunner 移动到结构化输出工具中 #21999
- 重构密集 FP8 张量/通道/块工具,并添加 CT FP8 块 #21404
- [杂项] 添加 kv-connector 标签 #25156
- [内核] 在 Triton 统一注意力内核中启用混合模型支持 #21197
- [性能] 为 GDN attn 添加 conv1d 元数据 #25105
- 功能(API):当引擎宕机时,/health 接口返回 503 #24897
- [新模型] 支持 BertForTokenClassification / 命名实体识别(NER)任务 #24872
- [文档] 修复 mkdocs 构建中的警告(续) #25163
- 为 NaiveAllToAll 启用 Allgather/ReduceScatter 后端 #23964
- [杂项] 为 Transformers 后端添加代码负责人 #25180
- [spec decode] 修复 MiMo-7B 模型的 MTP 推理路径 #25136
- [ROCm][CI/构建] 以 ROCm7.0 为基础 #25178
- [ROCm][AITER][Bug修复] 将 AITER 切换为使用 PIECEWISE_AND_FULL 编译 #25104
- [KV 卸载][1/N] 引入卸载组件 #19848
- [V0 弃用] 移除 AsyncLLMEngine #25025
- [修复]:从 gptoss 模型实现中移除数据类型硬编码 #23807
- [功能]:为模型特定的 M-RoPE 创建接口 #24194
- [Bug] 修复 returned_lse 未定义问题 #25106
- [Bug] 修复 torch 编译缓存命中错误 #25093
- [V0 弃用] 移除未使用的 async_timeout.py #25190
- [KV 卸载][1b/N] 将卸载重命名为 kv_offload #25191
- [Bug修复] 修复 DeepGEMM 预热,缺少 m.weight_scale_inv #25206
- [核心] 为 v1 引擎提供 Prompt Embeddings 支持 #24278
- [KV 卸载][2/N] 引入基于 LRU 的 CPU 卸载管理 #20075
- [gpt-oss] 为流式传输添加 ResponseReasoningPartAddedEvent 和 ResponseReasoningPartDoneEvent #24938
- [性能] 优化 EAGLE 模型加载期间的内存峰值 #24585
- [杂项] 清理 MM 分析警告 #25222
- [文档] 修复 vllm/multimodal 中的 griffe 警告 #25216
- [OOT] 支持 OOT 的同步模型加载 #25126
- [构建] 将 Xgrammar 更新到 0.1.24 以修复一个 CVE #25188
- [CPU] 在非 x86 平台上禁用 oneDNN 线性层 #25166
- [Bug修复][CPU] 为在没有 triton 的平台上使用 fused_moe 操作时添加占位符,避免导入错误 #25137
- [杂项] 清理针对已弃用编码器-解码器模型的测试 conftest #25231
- [Bug修复] 修复类似 OpenGVLab/InternVL3_5-38B 模型的 MHA 问题 #25146
- [内核][性能] 为 Qwen3-VL 交错 M-RoPE 添加 Triton 内核 #25055
- [Bug修复][性能] 针对 Qwen3 VL 的各种修复 #25238
- 将 PoolerConfig 从 config/init.py 移动到 config/pooler.py #25181
- [P/D][Nixl] 引入 KVTransferMetrics 和聚合策略 #22188
- [V0 弃用] 从 get_input_embeddings 接口中移除 V0 逻辑 #25242
- [Qwen] 移除 qwen3 next 中的 cuda 硬编码 #25243
- 更新 CODEOWNERS #25269
- 将 ModelConfig 从 config/init.py 移动到 config/model.py #25252
- 重构(基准测试):为 wait_for_endpoint 参数添加类型注解 #25218
- [KV 卸载][3/N] 添加工作端 CPU 支持 #21448
- [前端] 将 API 服务器数量传递给每个进程 #23717
- [核心] 修改 lora 管理器的初始化参数 #25249
- 移除 Qwen3_VisionPatchMerger 中的冗余赋值 #25224
- 支持 Transformers 后端的编码器模型 #25174
- [CI/构建] 修复 test_function_calling 测试 #25072
- [核心][前缀哈希] 修复前缀哈希指标滑动窗口维护问题 #24990
- [文档] 在 vllm/model_executor/layers/quantization/compressed_tensors/transform 目录下添加 init.py #24974
- [Bug修复] 修复结构化输出中缺失键的问题(来自 #24929) #25195
- [KV 卸载][4/N] 卸载 KV 连接器 #22595
- 优化 Triton 统一注意力性能以支持滑动窗口注意力 #24390
- [Bug修复] GPT OSS 在 H100 上的属性错误 #25228
- [Bug修复] 修复模块化内核中分块的 a2_scales 问题 #25264
- 在
pip-compile的pre-commit钩子中指定平台,使其在 MacOS 上运行 #25273 - [性能] 在可用时使用 FlashInfer RoPE 进行 RotaryEmbedding.forward_cuda #21126
- [Bug修复] 使 FlashInferMetadataBuilder 非阻塞 #25040
- 修复:在自动量化中确保 FusedMoE 层引用的正确性 #24818
- [前端] 仅支持 Harmony 的响应 API 消息 #24985
- [编译] 修复忽略
MIN_BLOCK_PER_SM的编译警告 #25193 - 启用 modelopt gemma3 nvfp4/fp8,使工作流程更加健壮 #22771
- 允许禁用 FlashInfer 预填充 #25276
- [Bug修复] 修复异步调度的 CPU 张量竞争问题(第二次尝试) #25279
- [Bug修复] 移除 VLLM_TEST_DYNAMO_FULLGRAPH_CAPTURE #2969 #25090
- 不跳过 Hermes 风格工具调用中的特殊标记 #25281
- 测试:移除在支持 v1 Prompt Embeds 后遗留的对 prompt embeds 测试的跳过 #25291
- [文档] 支持 Prompt Embedding 功能 #25288
- [torch.compile] 集成 CUDAGraph Inductor 分区 #24281
- [Bug修复] 确保析构函数中有适当的防护措施 #25284
- [杂项] 支持更多的 collective_rpc 返回类型 #25294
- 改进 Transformers 后端编码器模型的权重加载 #25289
- [BUGFIX] 使 Qwen3 Next MOE 模型与 GPTQ 量化兼容(AutoGPTQ 和 AutoRound-GPTQ) #25268
- [Bug修复] 在检查端口冲突时排除自身 #25286
- [BUG FIX][非 CUDA] 快速修复以避免在注意力中调用 cudagraph_unsafe #25298
- [Bug修复] 修复工具调用参数为空的问题 #25223
- [优化] 避免对池化模型进行重复的模型架构转换 #25261
- [混合分配器] 支持具有不同隐藏大小的全注意力 #25101
- [Bug修复] 修复 Qwen3-VL-MoE 在 EP 上的权重加载问题 #25300
- [V1] 支持
LLM.apply_model#18465 - [CI 失败] 禁用 FlashInfer RoPE 以解除 CI 阻塞 #25299
- [文档] 修复 mkdocs 构建中的警告(续) #25042
- 在加载时生成 _ModelInfo 属性文件以提高加载速度 #23558
- [模型] 清理 InternViT 的数据并行实现 #25306
- [核心] 为 V1 引擎启用分片状态加载器并增强测试覆盖率 #25308
- [V0 弃用] 在 V1 中启用剩余的多模态测试 #25307
- [文档] 修复 vllm/profiler 和 vllm/transformers_utils 中的警告 #25220
- [V0 弃用] 移除 LLMEngine #25033
- [V0 弃用] 移除 V0 输出处理器 #25320
- [日常维护] 移除模型中未使用的采样器 #25324
- [CI] 跳过在主分支上失败的测试 #25326
- [V0 弃用] 移除 V0 核心 #25321
- [文档] 改善 test-pipeline.yaml 文档 #25305
- [V0 弃用] 移除 V0 模型运行器基类并简化工作线程基类 #25328
- [多模态][性能] 在更多模型中融合 Q,K 的 apply_rope #25005
- [V0 弃用] 移除 from_seq_group 方法 #25330
- [V0 弃用] 移除 V0 MP 执行器 #25329
- [V1] 为 Flex Attention 后端添加滑动窗口支持 #24089
- [多模态][性能] 对 Qwen3-VL
fast_pos_embed_interpolate进行微优化 #25337 - [Bug修复] 缺失模型配置文件错误消息中的拼写错误 #25339
- [优化] 当处理器加载失败时缓存聊天模板结果 #25341
- [V0 弃用] 移除 V0 Sequence 类和采样器 #25332
- [V0 弃用] 移除 async_output_proc、抢占模式、延迟因子 #25334
- 功能:为推测器模型启用引擎级参数 #25250
- [V0 弃用] 移除 V0 采样元数据 #25345
- [性能] 进一步优化 Qwen3-VL
fast_pos_embed_interpolate#25347 - 移除 V0 注意力后端 #25351
- [Bug修复][V0 弃用][CI] 使用异步模拟和 await 处理异步方法 #25325
- 多模态 - 音频测试 #25285
- [模型] 支持 Dots OCR #24645
- [文档] 更新 GSM8K 准确性评估文档 #25360
- [Bug修复] 修复 Hermes 工具解析器对非字符串参数类型的处理 #22002
- [V0 弃用] 移除多模态注册表中仅限 V0 的方法 #25362
- [V0 弃用] 移除
MultiModalPlaceholderMap#25366 - 为 GPT-OSS 模型启用 Eagle3 推测解码 #25246
- [TPU][Bug修复][CI] 修复损坏的测试/构建依赖 #25255
- [TPU] 弃用
xm.mark_step,转而使用torch_xla.sync#25254 - 重构:将图模式支持抽象为平台接口 #25161
- [杂项] 移除未使用的编码器-解码器错误字符串 #25374
- 加快 pickle 导入检查的速度 #25379
- 使
mypy行为类似于正确的 pre-commit 钩子 #25313 - MI-300X Triton MoE 配置 #23445
- [Bug修复] 修复 p2p xPyD 在 GET 类型中的多个问题 #23993
- [V1][注意力] 将 triton_attn 分割为仅 Triton 和 ROCm 特定的后端 #24648
- [EPLB] 降低 EPLB 推理开销 #24573
- [CLI 环境变量] 在环境变量中添加 VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH #25274
- [编译器] 默认禁用 Inductor 独立编译 #25391
- [CI 失败] 修复 <SM90 上的 fp8 kv 缓存问题 #25396
- [DP] 支持使用数据并行性的 torchrun 外部启动器 #24899
- 移除 RFC 审查小时数的引用 #25416
- [torch.compile] 清理编译测试和自定义传递,添加调试工具,修复 DCE Bug(#23091),修复测试(#24376),并为自定义操作匹配做准备(#24604) #24542
- [KV 卸载][5/N] 添加
CPUOffloadingSpec#24251 - [CI/构建] 在模型实际发布之前跳过 Qwen3-VL 初始化测试 #25394
- [TPU] 更新 torch_xla 依赖以兼容 PyPI #25278
- [前端] 为内置工具和传递头信息的 Responses API 添加 MCP 工具 #24628
- [Bug修复] 修复自定义操作测试 #25429
- [核心] 删除过于激进的 whisper 断言 #25408
- [Bug修复] 修复缺失的
clear_connector_metadata#25397 - [BugFix][DP/EP] 修复当 BS <= DP 时执行缓慢的问题 #25407
- [性能] 移除 cutlass_mla 中的输入填充并优化 v_proj 输出处理 #25184
- [性能] 为
per_block_cast_to_fp8应用 torch.compile #24611 - [V0 弃用] 移除平台 v1 控制接口 #25410
- [V0 弃用] 移除
_set_default_args_v0函数 #25409 - [Bug] 修复长上下文 OOM 问题 #25290
- [功能] 支持 MRoPE + YaRN #25384
- [XPU] 修复
compile_size为None的情况 #25433 - [基准测试] 允许跳过 bench serve 的就绪检查 #25420
- [Bug修复] 移除上下文并行 MLA 的连续输出要求 #25414
- [文档] 修复 vllm/lora/ops 中的 griffe 警告 #25369
- [DP/EP][GPTOSS] 为 GPTOSS DP/EP 使用 triton matmul-ogs 内核 #24588
- [NIXL][OOT 平台] 支持 nixl_connector 与其他 nixl_backend 以及 OOT 平台 #25121
- [模型] 为 Qwen2-VL 中的 ViT 启用数据并行 #25445
- 处理 Triton 内核导入异常 #25319
- [前端] 为 qwen3-coder 添加基于 XML 的工具解析器 #25028
- [杂项] 将 DP for ViT 代码移动到模型执行器目录内 #25459
- [测试]:Qwen3 案例中 Hermes 工具解析器流输出错误 #25203
- [Bug修复] 修复 idefics3
tie_word_embeddings#25454 - [核心] 优化 LoRA 权重加载 #25403
- [文档] 基准服务错误的参数 #25474
- [CI/构建] 修复禁用的 v1 注意力后端选择测试 #25471
- [BugFix] 注册 expert_map 作为 wake_up 和 sleep 的命名缓冲区 #25458
- [P/D] 支持 NIXL 连接器在干净关闭期间断开连接 #24423
- [测试/文档] 使 NixlConnector 示例更清晰 #24249
- [XPU] 修复 XPU 上 MoE DP 的准确性问题 #25465
- [用户体验] 将 kv-cache-memory 日志级别更改为调试 #25479
- [V1] 移除混合模型的 V0 代码路径 #25400
- [核心/DBO][2/N] 双批次重叠添加 DeepEP 高吞吐量支持和预填充支持 #24845
- 为
GuidedDecodingParams添加向后兼容性 #25422 - [内核] 支持压缩张量 MoE 的阻塞 fp8 量化 #25219
- [Bug修复] 修复 per_token_group_quant.cu 中的未定义行为(UB) #24913
- [日志] 将 kv 缓存内存日志从字节优化为 GiB #25204
- 使用宏防护 CUDA 函数以在 grouped_topk_kernel.cu 中实现向后兼容 #25346
- [V1][内核] 为
reshape_and_cache_flash添加 Triton 实现 #24503 - [杂项] 减少 auto_tune 的初始化时间 #23682
- [Spec Decode][CI] 为
examples/spec_decode.py添加端到端测试并防止破坏接受长度 #24531 - [核心] 确保 LoRA 线性尊重 base_layer 的 tp_size 和 tp_rank #25487
- [ROCm] 为 dtypes fp16,bf16,fp8 添加 skinny gemm 偏置支持 #24988
- [核心] 为所有归约添加 nccl 对称内存 #24532
- [性能] 将 apply_w8a8_block_fp8_linear 移动到一个操作类中 #24666
- [性能] 将默认的 CUDAGraphMode 从 PIECEWISE 更改为 FULL_AND_PIECEWISE #25444
- [推测器][推测解码] 修复 gpt-oss eagle3 准确性问题 #25406
- [Bug修复] 将 gpt-oss 的最大 cudagraph 大小降低到 992 以与 FA3 兼容 #25508
- 默认启用对称内存归约,仅在 TP 上启用 #25070
- [CI] 修复 Pre-commit 问题 #25497
- [Bug修复] gpt-oss 容器工具输出错误 #25485
- [构建] 更新 Xgrammar 至 0.1.25 #25467
- [Bug修复] 修复 #24588 引起的导入错误 #25481
- [CI/构建] 修复并重新启用 CI 上的 v1 PP 测试 #25496
- [核心] 尽可能使用 KVCacheBlock 代替 dict[block_id, KVCacheBlock] #24830
- [V0 弃用] 移除占位符注意力 #25510
- 添加 VLLM_ENABLE_INDUCER_MAX_AUTOTUNE 和 VLLM_ENABLE_INDUCER_COORDINA… #25493
- 修复 triton_reshape_and_cache_flash.py 中的 triton 导入问题 #25522
- [gpt-oss][Bug修复] 移除 ResponseAPI 中要求 resp_ 的逻辑 #25428
- 移除 direct_register_custom_op 中冗余的 mutates_args 和 dispatch_key #25512
- [Bug修复] 通过确保一致的 NCCL 内存核算来解决 vLLM 副本中的 OOM 问题 #25359
- 添加
VLLM_NVTX_SCOPES_FOR_PROFILING=1以启用nvtx.annotate范围 #25501 - [内核] [Mamba] 从
_chunk_cumsum_fwd_kernel的可调配置列表中移除 BLOCK_H=1 #25197 - [ROCm] 对 gptoss 进行小的功能更改 #25201
- [性能] 增加 FA3 全 cudagraph 的默认最大分割数 #25495
- [Bug修复] [B200] cutlass_mla - 确保 kv_split == 1 当批量大小 > 1 #25509
- [Bug修复] AssertionError: 不要捕获 uniform batch 中的 num_reqs > max_num_reqs #25505
- 改进在结构化输出测试中 json.loads() 失败时的输出 #25483
- 添加 CUTLASS FP8 MoE 基准测试脚本和内核配置 #25302
- [Bug] 修复 AttributeError: ‘FusedMoE’ 对象没有属性 ‘w13_weight_scale’。你是不是想说:‘w13_weight_scale_inv’ #25519
- [BUG] 允许 RunAI Streamer 和 Torch.compile 缓存一起使用 #24922
- [模型] 支持 SeedOss Reason Parser #24263
- [V1][指标] 为每个请求添加 TPOT 直方图 #24015
- [Bug修复] 为 trtllm-gen 使用单独的 FlashInfer 工作区缓冲区 #25520
- [核心] 为
UnquantizedLinearMethod支持 weight_loader_v2 #23036 - [编译] 修复 AMD 编译错误 #25518
- [Bug修复] 修复 MLA 断言与 CUTLASS MLA 的问题 #25478
- [修复]:为 Arm 4bit 融合 MoE 添加支持 #23809
- [KV 共享] 重新引入 Gemma3n 模型从 #22628 的更改 #24357
- [Spec Decode] 启用 FlashInfer Spec 解码 #25196
- [性能] 修复 fla gated delta rule 在运行时 jit 编译的问题 #25432
- [Bug修复] [前端] 清理 gpt-oss 非流式聊天工具调用 #25514
- [TPU][Bug修复] 修复 tpu 工作线程中缺失的 apply_model #25526
- [杂项] 如果发生 “Already borrowed” 错误,则重试 HF 处理 #25535
- [Bug修复][CPU] 跳过在 CPU 上不支持的自定义操作注册 #25534
- [CI/构建] 修复 v1 OOT 注册测试 #25547
- [杂项] 将处理上下文移动到多模态目录 #25548
- [CI/构建] 添加夜间 prime-rl 集成测试 #25207
- [V0 弃用] 移除 max_seq_len_to_capture #25543
- [Bug修复] 潜在修复 FA3 全-cudagraph IMA #25490
- [杂项] 更新警告消息 #25566
- [Bug修复] 修复 Dummy 视频帧数计算 #25553
- [Bug] 修复导入和单元测试 #25558
- [基准测试] 修复结构化输出基准测试中的回归 #25500
- [文档] 修复 nixl kv_connector_extra_config.backends 键 #25565
- [Bug修复] 修复 DeepSeekV31ToolParser 以正确解析非流式输出中的多个工具 #25405
- 将
DeviceConfig、ObservabilityConfig、SpeechToTextConfig移动到各自的文件中 #25564 - [杂项] 改进 jsontree 的类型注解 #25577
- [ROCm][Bug修复] 仅在未明确禁用时基于 aiter 启用 +rms_norm #25275
- [ROCm][构建][Bug修复] 修复 ROCm 基础 Docker whls 安装顺序 #25415
- 修复和更新 bench_per_token_quant_fp8 #25591
- [Bug修复] 在从对象存储获取模型时添加缓存模型 #24764
- 支持来自 Flashinfer 的 mnnvl all2allv #21003
- 在使用 DBO 捕获 cudagraphs 时抑制良性的 cuBLAS 警告 #25596
- [文档] 在 CI 中为文档构建启用
fail_on_warning#25580 - [V0 弃用] 移除注意力模块中未使用的类 #25541
- [日志] 优化当 DeepEP HT 禁用 CUDA Graphs 时的日志输出 #25531
- 功能:为 Hopper 和 Blackwell 的专家并行提供 BF16 FlashInfer Fused Cutlass MoE #25503
- [重构] 使用 DeepGEMM 的列优先(Col Major)TMA 对齐张量 #25517
- 改进
--help命令以提升用户体验 #24903 - [杂项] 将 c10::optional 替换为 std::optional #25602
- [模型] 改进 DotsOCRForCausalLM #25466
- [内核] 为 Triton 后端支持 DCP(推测解码相关?) #25132
- [Bug] 由于
BasevLLMParameter.torch_function调用了被禁用的 super(),导致 Dynamo 不支持 #25613 - 为密集模型启用 Fbgemm NVFP4 #25609
- [模型] 添加 LongCat-Flash #23991
- 优化:消除重复的 split_enc_dec_inputs 调用 #25573
- [Bug修复] 修复 apply_temperature 以避免概率中出现 nan #24734
- [杂项] 简化 PoolerOutput 并将其移动到
v1/outputs#25629 - 将 CwmForCausalLM 映射到 llama 和 LlamaForCausalLM #25611
- 笔误:移除重复的
is#25641 - 撤销 “[性能] 将 apply_w8a8_block_fp8_linear 移动到操作类…” #25607
- [修复] 为 AArch64/ppc64le 和 Darwin 更新 cpu-build.txt 中的 torch 版本 #25579
- [杂项] 修复 Qwen3-VL 中 video_grid_thw 的类型标注 #25646
- [Bug修复] 添加 triton.language.tensor 占位符 #25649
- [Bug修复] 修复 Qwen3-VL 在视频分析中 max_num_video_tokens 的计算 #25648
- [mypy] 进一步改进多模态(MM)类型注解 #25654
- [Bug修复] 解析 SpeculativeConfig 错误 #25142
- [V0 弃用] 移除不可达的 model_config.supported_tasks #25642
- 为
guided_...API 添加向后兼容性 #25615 - [CI/构建] 修复不稳定的 entrypoints 测试 #25663
- [XPU][Triton] 在 triton_reshape_and_cache_flash 中添加 XPU 配置 #25643
- [硬件][RISC-V] 为 vLLM 添加标量(scalar)的 riscv64 支持 #22112
- [mypy] 修复与元组相关的错误类型注解 #25660
- [杂项] 默认对挂起/繁忙/空闲状态发出警告 #25627
- [torch.compile] 使 Query 量化可融合 #24914
- [CPU] 更新 torch 至 2.8 并修复 TorchSDPAMetadata 中缺失的字段 #25652
- [用户体验] 将关于 PyTorch 回退的警告切换为调试日志 #23750
- [Bug修复] 修复 Transformers v4.56 之后 InternS1 的视频处理 #25644
- [杂项] 移除仓库中的无用文件 #25678
- [日志] 移除 TORCH_NCCL_AVOID_RECORD_STREAMS 以消除一个警告 #25532
- [BUGFIX] 修复当超出限制时 Eagle 推测解码模型崩溃的问题 #24662
- 撤销 “[Bug] Dynamo 不支持,因为
BasevLLMParameter.torch_function调用了被禁用的 super()” #25681 - [Bug修复] 修复 DBO 挂起问题 #25625
- [模型] 为推理解析器构造函数添加可选参数 #25554
- [模型] 定义
merge_by_field_config多模态(MM)接口 #25676 - [V0 弃用] 清理编译配置中的 V0 回退逻辑 #25675
- [V0 弃用] 移除注意力后端名称中的 _VLLM_V1 后缀 #25489
- [V0 弃用] 清理 LoRA 相关内容 #25686
- [杂项] 简化 test_argsort_mm_positions #25690
- [优化] 简化 InputPreprocessor #25702
- [优化] 在 get_model_architecture 中使用更廉价的缓存键 #25682
- [Spec Decode] 添加批量并行 Ngram,最高可降低 8 倍开销 #24986
- [核心] 为 LLMEngine 启用命令行日志 #25610
- [模型] 将 NemotronH_Nano_VL 重命名为 NemotronH_Nano_VL_V2 #25708
- 修复 routing_bias 的数据类型 #25711
- [重构] 移除 DeepGEMM 操作注册 #25710
- [杂项] 不在 worker 端记录 shm 出队延迟警告 #25720
- 从 355_wip 向上游提交 Llamas 3.1 405B fp4 相关变更 #25135
- [核心] 强制对编码器-解码器使用 PIECEWISE CUDAGraph 模式 #25701
- [杂项] 移除 shm_broadcast.py 中不必要的内存视图 #25721
- EVS 支持(视频 token 剪枝) #22980
- [CI/构建] 修复文档构建警告:未能获取 ‘name: description’ 对 #25733
- 修复:撤销在
MsgpackEncoder._encode_tensor中的 cast to cpu 操作,以避免隐藏的性能回退 #25738 - 性能:除非启用了 prompt_embeds,否则避免将 inputs_embeds 张量复制到 GPU #25739
- [硬件][AMD][模型] 为 MI300X 上的 GLM-4.5 提供 Triton MoE 调优配置 #25703
- 修复:打印 outputt offline_inference/base/chat.py 示例的输出 #25744
- [Qwen3-Next][GDN] 修复 GDN 元数据中的 cuda graph 捕获 bug 以及 causal_conv_1d 中的步幅 bug #25743
- 移除 compute_causal_conv1d_metadata 中的 cuda 硬编码 #25555
- [杂项] 重构推测配置 #25657
- [Bug修复] 修复 FusedMoE.process_chunk 中的共享专家/零专家代码 #25698
- 支持 LongCat-Flash-Chat 工具调用 #24083
- [文档] 更新批处理级 DP 文档 #25757
- [模型] 重构 Mamba2 的变长和元数据 #21467
- [CI] 修复 test_shared_storage_connector_hashes #25748
- [Bug修复] 正确中止池化请求 #25734
- [CI/构建] 拆分分布式测试 #25572
- [CI/构建] 修复部分 V1 测试未被运行的问题 #25569
- [量化] 为 GPTQ 配置添加字段以跳过未量化的模块 #25455
- [Bug修复] 修复始终使用
dbo_decode_token_threshold(并忽略dbo_prefill_token_threshold)的问题 #25622 - [ray][指标] 为 OpenTelemetry 兼容性,将 Ray 中的 ‘:’ 替换为 ‘_’ #25439
- [修复][torch.compile] 修复 unique_filepath #25732
- 支持 Minicpm3 模型的 Eagle3 #24243
- [文档]:改进 CPU(x86) 从源码构建 wheel 的章节 #25617
原文地址:https://github.com/vllm-project/vllm/releases/tag/v0.11.0
952

被折叠的 条评论
为什么被折叠?



