大模型推理框架RTP-LLM对DeepSeek-V3的优化实践

原创

于 2025-05-14 11:38:57 发布 · 628 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

DeepSeek-V3 在多个评测中展现出强大性能，成为当前最受关注的开源大模型之一。由于采用了大规模 MoE 架构，如何优化推理性能，是工程落地上的关键难点。

01 Overview

DeepSeek 团队于 2 月相继开源了 DeepEP、DeepGEMM、FlashMLA、EPLB 等关键组件。在开源社区工作的基础上，我们在RTP-LLM上完成了优化工作，对齐了 DeepSeek 推理系统的性能。

DeepSeek-V3 在多个评测中展现出强大性能，成为当前最受关注的开源大模型之一。由于采用了大规模 MoE 架构，如何优化推理性能，是工程落地上的关键难点。DeepSeek 团队于 2 月相继开源了 DeepEP、DeepGEMM、FlashMLA、EPLB 等关键组件。在开源社区工作的基础上，我们在RTP-LLM上完成了优化工作，对齐了 DeepSeek 推理系统的性能。

RTP-LLM 是阿里巴巴爱橙科技研发的 LLM 推理加速引擎，主要服务阿里集团内部业务。本文将分享实现过程中的一些关键技术点、不足和思考，以此感谢开源社区对我们的帮助。相关代码正在整理和重构中，不久之后会更新完整的代码和复现方法。

根据 DeepSeek Inference System Overview的介绍

Total input tokens: 608B, of which 342B tokens (56.3%) hit the on-disk KV cache.
Total output tokens: 168B. The average output speed was 20–22 tokens per second, and the average kvcache length per output token was 4,989 tokens.
Each H800 node delivers an average throughput of ~73.7k tokens/s input (including cache hits) during prefilling or ~14.8k tokens/s output during decoding.

DeepSeek 推理系统在实际生产服务中， Prefill 吞吐为 32.2K per H800 node，Decode 吞吐为 14.8K TPS per H800 node。在 RTP-LLM 测试中，我们使用 4K input/2K output，在 1.6s TTFT 和 50ms ITL 约束下，达到了 Prefill 42.6K TPS per H800 node， Decode 14.7K TPS per H800 node 的性能。

免费分享一套人工智能入门学习资料给大家，如果你想自学，这套资料非常全面！
关注公众号【AI技术星球】发暗号【321C】即可获取！

【人工智能自学路线图（图内推荐资源可点击内附链接直达学习）】
【AI入门必读书籍-花书、西瓜书、动手学深度学习等等...】
【机器学习经典算法视频教程+课件源码、机器学习实战项目】
【深度学习与神经网络入门教程】
【计算机视觉+NLP经典项目实战源码】
【大模型入门自学资料包】
【学术论文写作攻略工具】