文章主要内容和创新点
主要内容
本文聚焦于大语言模型(LLM)推理服务中预填充(prefill)和解码(decode)两个阶段的资源管理问题。预填充阶段处理完整输入提示以生成第一个输出token,属于计算密集型;解码阶段逐token生成后续输出,受内存带宽约束。现有方案存在局限:单引擎混合处理(如vLLM)会因两阶段资源需求冲突导致干扰,增加延迟;跨引擎解耦(如vLLM-disaggregation)虽避免干扰,但需额外硬件且资源利用率低。
为此,本文提出Nexus——一种在单个GPU内实现预填充与解码逻辑解耦的服务引擎。其核心机制包括:轻量级分析成本模型(预测不同资源分配下的延迟)、贪心搜索算法(实时选择低延迟资源分区)、阶段特定调度器(预填充用“最短提示优先”优化首token时间(TTFT),解码用“先到先服务”优化token间时间(TBT))。实验表明,Nexus在吞吐量、TTFT和TBT上显著优于vLLM、SGLang等基线,且仅用一半GPU资源即可超越vLLM-disaggregation。
创新点
- 引擎内解耦架构:首次在单个服务引擎(GPU)内实现预填充与解码的逻辑分离,避免跨设备通信开销,同时保持高资源利用率。
- 动态SM分区:基于GPU流多处理器(SM)的动态资源分配,通过成本模型捕捉两阶段的边际效益递减特性,实时调整资源占比以减少干扰。
- 轻量级优化机制:结合分析成本模型与贪心搜索算法,实现亚秒级资源重分配,适应动态 wo

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



