飞桨框架3.0推理升级:支持多款主流大模型、DeepSeek-R1满血版实现单机部署,吞吐提升一倍!
飞桨框架3.0大模型推理部署升级加码,支持多款主流大模型,MLA、MTP、量化优化全面突破,4比特单机部署DeepSeek-R1满血版吞吐提升一倍,立即体验请直接划至下方“一键式脚本,快速启动推理”。
飞桨新一代框架3.0全面升级了大模型推理能力,依托高扩展性的中间表示(PIR)从模型压缩、推理计算、服务部署、多硬件推理全方位深度优化,能够支持众多开源大模型进行高性能推理,并在DeepSeek V3/R1上取得了突出的性能表现。飞桨框架3.0支持了DeepSeek V3/R1满血版及其系列蒸馏版模型的FP8推理,并且提供INT8量化功能,破除了Hopper架构的限制。此外,还引入了4比特量化推理,使得用户可以单机部署,降低成本的同时显著提升系统吞吐一倍,提供了更为高效、经济的部署方案。
在性能优化方面,我们对MLA算子进行多级流水线编排、精细的寄存器及共享内存分配优化,性能相比FlashMLA最高可提升23% 。综合FP8矩阵计算调优及动态量化算子优化等基于飞桨框架3.0的DeepSeek R1 FP8推理,单机每秒输出token数超1000;若采用4比特单机部署方案,每秒输出token数可达2000以上!推理性能显著领先其他开源方案。此外,还支持了MTP投机解码,突破大批次推理加速,在解码速度保持不变的情况下,吞吐提升144% ;吞吐接近的情况下,解码速度提升42% 。针对长序列Prefill阶段,通过注意力计算动态量化,首token推理速度提升37% 。

- H800上256并发不含MTP测试,实验复现请参考文档:
https://paddlenlp.readthedocs.io/zh/latest/llm/docs/predict/deepseek.html
4比特量化
单机高速推理部署
除了支持DeepSeek V3/R1满血版及其系列蒸馏版模型在Hopper架构GPU上部署,飞桨框架3.0 还实现了Weight Only INT8量化,支持在A800部署;此外,还通过Weight Only INT4量化,支持单机部署;相比2机部署方案,大大节省了跨机通信耗时,相同并发下可加速101%~128% 。

- H800上不含MTP测试,实验复现请参考文档:
https://paddlenlp.readthedocs.io/zh/latest/llm/docs/predict/deepseek.html
MLA优化性能大幅领先
结合Hopper架构的特性,我们通过多级流水线编排、精细的寄存器及共享内存分配,深度调优MLA算子性能,相比业内最优方案FlashMLA,性能领先4%~23% 。下面将详细介绍我们的优化方案。

首先

最低0.47元/天 解锁文章
1823

被折叠的 条评论
为什么被折叠?



