FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning

最新推荐文章于 2025-12-12 18:01:47 发布

UnknownBody

最新推荐文章于 2025-12-12 18:01:47 发布

阅读量244

点赞数 3

CC 4.0 BY-SA版权

分类专栏： LLM Training 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136536130

LLM 日更同时被 2 个专栏收录

828 篇文章

已下架不支持订阅

LLM Training

99 篇文章

订阅专栏

FlexLLM是一个创新系统，首次实现了在同一GPU上同时进行大型语言模型的推理和参数高效微调，解决了单独系统造成的资源浪费问题。通过引入token级微调和静态编译优化，它显著降低了内存开销，减少了微调的GPU需求，同时保持了低延迟和高吞吐量。在高负载推理情况下，仍能维持80%以上的微调性能。

本文是LLM系列文章，针对《FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning》的翻译。

摘要

参数有效微调（PEFT）是一种广泛使用的技术，用于使大型语言模型适应不同的任务。服务提供商通常为用户创建单独的系统来执行PEFT模型微调和推理任务。这是因为现有系统无法处理包括推理和PEFT微调请求的混合工作负载。因此，共享GPU资源未得到充分利用，导致效率低下。为了解决这个问题，我们提出了FlexLLM，这是第一个可以在同一迭代中提供推理和参数高效微调请求的系统。我们的系统利用了这两个任务的互补性，并利用共享的GPU资源，使用一种称为共同服务的方法来联合运行它们。为了实现这一点，FlexLLM引入了一种新的token级微调机制，该机制将序列的微调计算分解为更小的token级计算，并使用依赖并行化和图修剪这两种静态编译优化，以最大限度地减少内存开销和协同服务的延迟。与现有系统相比，FlexLLM的协同服务方法将激活GPU内存开销减少了8倍，并将微调的端到端GPU内存需求减少了36%，同时保持了较低的推理延迟并提高了微调吞吐量。例如，在繁重的推理工作负载下，FlexLLM仍然可以保持80%以上的峰值微调吞吐量，而现有系统无法在微调方面取得任何进展。FlexLLM的源代码在https://github.com/flexflow/FlexFlow/上可用。