Nexus: Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving

文章主要内容和创新点

主要内容

本文聚焦于大语言模型(LLM)推理服务中预填充(prefill)和解码(decode)两个阶段的资源管理问题。预填充阶段处理完整输入提示以生成第一个输出token,属于计算密集型;解码阶段逐token生成后续输出,受内存带宽约束。现有方案存在局限:单引擎混合处理(如vLLM)会因两阶段资源需求冲突导致干扰,增加延迟;跨引擎解耦(如vLLM-disaggregation)虽避免干扰,但需额外硬件且资源利用率低。

为此,本文提出Nexus——一种在单个GPU内实现预填充与解码逻辑解耦的服务引擎。其核心机制包括:轻量级分析成本模型(预测不同资源分配下的延迟)、贪心搜索算法(实时选择低延迟资源分区)、阶段特定调度器(预填充用“最短提示优先”优化首token时间(TTFT),解码用“先到先服务”优化token间时间(TBT))。实验表明,Nexus在吞吐量、TTFT和TBT上显著优于vLLM、SGLang等基线,且仅用一半GPU资源即可超越vLLM-disaggregation。

创新点
  1. 引擎内解耦架构:首次在单个服务引擎(GPU)内实现预填充与解码的逻辑分离,避免跨设备通信开销,同时保持高资源利用率。
  2. 动态SM分区:基于GPU流多处理器(SM)的动态资源分配,通过成本模型捕捉两阶段的边际效益递减特性,实时调整资源占比以减少干扰。
  3. 轻量级优化机制:结合分析成本模型与贪心搜索算法,实现亚秒级资源重分配,适应动态 wo
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值