LLM-Mesh: Enabling Elastic Sharing for Serverless LLM Inference

原创于 2025-12-31 10:15:00 发布 · 108 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能

LLM Daily 同时被 2 个专栏收录

1793 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

62 篇文章

订阅专栏

文章主要内容总结

本文针对中小型大语言模型（LLMs）的私有无服务器部署场景，提出了一种名为LLM-Mesh的推理方案，旨在通过异构硬件（CPU和GPU）的弹性共享提升服务能力。

现有方案多采用独占GPU的部署模式，但存在资源利用率低的问题：一方面，带有内置加速器（如Intel AMX）的新兴CPU架构具备服务中小型LLM的能力却未被充分利用；另一方面，CPU和GPU均可同时容纳多个LLM。LLM-Mesh通过三个核心机制解决了异构环境下的资源管理挑战：

令牌级细粒度资源分配：在令牌生成过程中动态调整计算资源，应对波动的计算需求；
协调式前瞻内存扩展机制：检测内存不足风险，减少内存操作开销；
双重碎片减少策略：通过主动抢占和被动装箱（bin-packing）减少资源碎片。

实验结果显示，在4个32核CPU和4个A100 GPU的环境中，LLM-Mesh通过共享机制将服务能力提升44%-63%；进一步利用CPU后，提升幅度达到91%-159%。

创新点

异构硬件弹性共享：首次系统探索并利用带有内置加速器的CPU进行LLM推理，实现CPU与GPU的协同共享，突破传统方案对GPU的独占依赖。
令牌级精确资源管理：在令牌生成的预填充（prefill）和解码（decode）阶段，动态分配计算资源，精准匹配波动的计算需求，保障服务等级目标（SLO）。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。