聊聊大模型推理系统之 Arrow：自适应调度实现请求吞吐提升7.78倍背后的三大创新

最新推荐文章于 2025-11-25 12:11:01 发布

原创

最新推荐文章于 2025-11-25 12:11:01 发布 · 705 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#大模型 #人工智能

Arrow 的核心突破在于其“双自适应”调度能力——既能动态调整请求的分发路径，也能实时重配计算实例的角色。研究团队发现，现实中的 LLM 请求在输入和输出长度上存在巨大波动，导致传统固定比例的 Prefill（填充）与 Decode（解码）节点配置极易失衡。

在大模型（LLM）推理服务中，如何在输入/输出长度剧烈波动的现实场景下，依然保持高吞吐与低延迟？传统静态资源分配策略往往导致计算资源严重浪费。近期，来自中国科学技术大学、北航与京东的研究团队提出了一项名为 Arrow 的自适应调度机制，通过无状态实例与弹性实例池，实现了高达 7.78 倍的请求服务速率提升。这项研究不仅解决了Prefill-Decode 拆分架构（PD 拆分）的核心瓶颈，更为大模型服务系统的弹性化设计提供了新范式。

论文链接见文末

核心看点

Arrow 的核心突破在于其“双自适应”调度能力——既能动态调整请求的分发路径，也能实时重配计算实例的角色。研究团队发现，现实中的 LLM 请求在输入和输出长度上存在巨大波动，导致传统固定比例的 Prefill（填充）与 Decode（解码）节点配置极易失衡。为此，Arrow 创新性地将计算实例设计为无状态（stateless），使其可随时在 Prefill 和 Decode 任务间切换，彻底消除了传统“实例翻转”带来的分钟级延迟。通过实时监控Time-to-First-Token（TTFT，首字延迟）和Time-per-Output-Token（TPOT，字间延迟）等关键指标，Arrow 实现了 SL