SGLang 推理引擎：LLM部署的加速利器，对话与生成新高度！

最新推荐文章于 2025-09-05 10:48:51 发布

原创最新推荐文章于 2025-09-05 10:48:51 发布 · 1.5k 阅读

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #自然语言处理 #AI大模型 #LLM #ai #大模型部署

企业在部署大型语言模型（LLM）时面临着重大挑战。主要问题包括管理处理大量数据所需的巨大计算需求、实现低延迟，以及确保CPU密集型任务（如调度和内存分配）与GPU密集型计算之间的最佳平衡。反复处理类似输入进一步加剧了许多系统中的低效率，导致冗余计算，从而降低整体性能。此外，实时生成结构化输出（如JSON或XML）也引入了额外的延迟，使得应用程序难以在规模上提供快速、可靠、成本效益高的性能。

SGLang 是由 SGLang 团队设计的一款开源推理引擎，旨在解决这些挑战。它在推理过程中优化了 CPU 和 GPU 资源，相比许多竞争性解决方案，实现了显著更高的吞吐量。其设计采用了一种创新的方法，减少了冗余计算，提高了整体效率，从而使得组织能够更好地管理与 LLM 部署相关的复杂性。

RadixAttention 是 SGLang 的核心，它可以在多个请求之间重用共享的提示前缀。这种方法有效地减少了相似输入序列的重复处理，提高了吞吐量。该技术在对话界面或检索增强生成应用中具有优势，在这些应用中，相似的提示经常被处理。通过消除冗余计算，系统确保资源得到更有效的利用，从而有助于加快处理速度并使应用更加响应迅速。

SGLang的另一个关键特性是其零开销批量调度器。早期的推理系统常常因为批量调度、内存分配和提示预处理等任务而遭受显著的CPU开销。在很多情况下，这些操作会导致GPU出现空闲期，从而影响整体性能。

SGLang通过将CPU调度与正在进行的GPU计算重叠来解决这一瓶颈。调度器通过运行一个批次并准备下一个批次所需的所有必要元数据，使GPU保持持续忙碌。性能分析表明，这种设计减少了空闲时间，并实现了可测量的速度提升，尤其是在涉及较小模型和广泛张量并行性的配置中。

SGLang 还集成了一个缓存感知的负载均衡器，它不同于传统的轮询调度等负载均衡方法。传统技术往往忽略了键值（KV）缓存的状态，导致资源使用效率低下。相比之下，SGLang 的负载均衡器预测不同工作进程的缓存命中率，并将传入请求导向最有可能发生缓存命中的工作进程。这种有针对性的路由提高了吞吐量并增强了缓存利用率。该机制依赖于一个近似基数树，它反映了每个工作进程上的当前缓存状态，并且它懒惰地更新此树以最小化开销。这个负载均衡器是用 Rust 实现的，以支持高并发，特别适合分布式、多节点环境。

除了这些功能外，SGLang 还支持数据并行注意力机制，这是一种专门针对 DeepSeek 模型定制的策略。虽然许多现代模型使用张量并行，这可能导致在跨多个 GPU 扩展时出现重复的 KV 缓存存储，但 SGLang 采用了一种不同的方法来处理使用多头潜在注意力的模型。在这种方法中，独立的数据并行工作器分别处理各种批次，例如预填充、解码或空闲。然后，在通过后续层（如专家混合层）之前，将处理过的注意力数据在工作器之间聚合，之后重新分配。

SGLang在高效生成结构化输出方面也表现出色。许多推理系统在实时解码JSON等格式时遇到困难，这在许多应用中可能是一个关键需求。SGLang通过集成一个称为xgrammar的专业语法后端来解决这一问题。这种集成简化了解码过程，使得系统生成结构化输出的速度比其他开源替代方案快十倍。当需要快速生成机器可读数据时，这一功能特别有价值，这对于下游处理或交互式应用至关重要。

多家知名公司已经认可了SGLang的实际效益。例如，字节跳动将大量内部NLP管道通过这个引擎进行渠道化，每天处理PB级的数据。同样，xai通过利用优化的调度和有效的缓存管理，报告了显著的成本节约，导致服务费用的显著降低。这些实际应用凸显了SGLang在规模上高效运行的能力，带来了性能提升和成本效益。

SGLang 在 Apache 2.0 开源许可证下发布，可供学术研究和商业应用访问。它与 OpenAI 标准的兼容性以及提供的 Python API 允许开发者无缝将其集成到现有工作流程中。该引擎支持许多模型，包括流行的 Llama、Mistral、Gemma、Qwen、DeepSeek、Phi 和 Granite 等。它旨在跨各种硬件平台工作，包括 NVIDIA 和 AMD GPU，并集成了先进的量化技术，如 FP8 和 INT4。未来的增强将包括 FP6 权重和 FP8 激活量化、更快的启动时间和跨云负载均衡。

SGLang 研究的几个关键要点包括：