Arrow 的核心突破在于其“双自适应”调度能力——既能动态调整请求的分发路径,也能实时重配计算实例的角色。研究团队发现,现实中的 LLM 请求在输入和输出长度上存在巨大波动,导致传统固定比例的 Prefill(填充)与 Decode(解码)节点配置极易失衡。
在大模型(LLM)推理服务中,如何在输入/输出长度剧烈波动的现实场景下,依然保持高吞吐与低延迟?传统静态资源分配策略往往导致计算资源严重浪费。近期,来自中国科学技术大学、北航与京东的研究团队提出了一项名为 Arrow 的自适应调度机制,通过无状态实例与弹性实例池,实现了高达 7.78 倍 的请求服务速率提升。这项研究不仅解决了Prefill-Decode 拆分架构(PD 拆分)的核心瓶颈,更为大模型服务系统的弹性化设计提供了新范式。

论文链接见文末
核心看点
Arrow 的核心突破在于其“双自适应”调度能力——既能动态调整请求的分发路径,也能实时重配计算实例的角色。研究团队发现,现实中的 LLM 请求在输入和输出长度上存在巨大波动,导致传统固定比例的 Prefill(填充)与 Decode(解码)节点配置极易失衡。为此,Arrow 创新性地将计算实例设计为无状态(stateless),使其可随时在 Prefill 和 Decode 任务间切换,彻底消除了传统“实例翻转”带来的分钟级延迟。通过实时监控Time-to-First-Token(TTFT,首字延迟)和Time-per-Output-Token(TPOT,字间延迟)等关键指标,Arrow 实现了 SL

最低0.47元/天 解锁文章
1007

被折叠的 条评论
为什么被折叠?



