飞桨框架3.0推理升级：支持多款主流大模型、DeepSeek-R1满血版实现单机部署，吞吐提升一倍！

原创

已于 2025-03-14 15:27:28 修改 · 1.5k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#paddlepaddle #人工智能

于 2025-03-14 13:53:51 首次发布

飞桨框架3.0推理升级：支持多款主流大模型、DeepSeek-R1满血版实现单机部署，吞吐提升一倍！

飞桨框架3.0大模型推理部署升级加码，支持多款主流大模型，MLA、MTP、量化优化全面突破，4比特单机部署DeepSeek-R1满血版吞吐提升一倍，立即体验请直接划至下方“一键式脚本，快速启动推理”。

飞桨新一代框架3.0全面升级了大模型推理能力，依托高扩展性的中间表示（PIR）从模型压缩、推理计算、服务部署、多硬件推理全方位深度优化，能够支持众多开源大模型进行高性能推理，并在DeepSeek V3/R1上取得了突出的性能表现。飞桨框架3.0支持了DeepSeek V3/R1满血版及其系列蒸馏版模型的FP8推理，并且提供INT8量化功能，破除了Hopper架构的限制。此外，还引入了4比特量化推理，使得用户可以单机部署，降低成本的同时显著提升系统吞吐一倍，提供了更为高效、经济的部署方案。

在性能优化方面，我们对MLA算子进行多级流水线编排、精细的寄存器及共享内存分配优化，性能相比FlashMLA最高可提升23% 。综合FP8矩阵计算调优及动态量化算子优化等基于飞桨框架3.0的DeepSeek R1 FP8推理，单机每秒输出token数超1000；若采用4比特单机部署方案，每秒输出token数可达2000以上！推理性能显著领先其他开源方案。此外，还支持了MTP投机解码，突破大批次推理加速，在解码速度保持不变的情况下，吞吐提升144% ；吞吐接近的情况下，解码速度提升42% 。针对长序列Prefill阶段，通过注意力计算动态量化，首token推理速度提升37% 。

在这里插入图片描述

H800上256并发不含MTP测试，实验复现请参考文档:

https://paddlenlp.readthedocs.io/zh/latest/llm/docs/predict/deepseek.html

4比特量化

单机高速推理部署

除了支持DeepSeek V3/R1满血版及其系列蒸馏版模型在Hopper架构GPU上部署，飞桨框架3.0 还实现了Weight Only INT8量化，支持在A800部署；此外，还通过Weight Only INT4量化，支持单机部署；相比2机部署方案，大大节省了跨机通信耗时，相同并发下可加速101%~128% 。

在这里插入图片描述