本文是LLM系列文章,针对《FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning》的翻译。
FlexLLM:一种协同服务的大型语言模型推理和参数有效微调系统
摘要
参数有效微调(PEFT)是一种广泛使用的技术,用于使大型语言模型适应不同的任务。服务提供商通常为用户创建单独的系统来执行PEFT模型微调和推理任务。这是因为现有系统无法处理包括推理和PEFT微调请求的混合工作负载。因此,共享GPU资源未得到充分利用,导致效率低下。为了解决这个问题,我们提出了FlexLLM,这是第一个可以在同一迭代中提供推理和参数高效微调请求的系统。我们的系统利用了这两个任务的互补性,并利用共享的GPU资源,使用一种称为共同服务的方法来联合运行它们。为了实现这一点,FlexLLM引入了一种新的token级微调机制,该机制将序列的微调计算分解为更小的token级计算,并使用依赖并行化和图修剪这两种静态编译优化,以最大限度地减少内存开销和协同服务的延迟。与现有系统相比,FlexLLM的协同服务方法将激活GPU内存开销减少了8倍,并将微调的端到端GPU内存需求减少了36%,同时保持了较低的推理延迟并提高了微调吞吐量。例如,在繁重的推理工作负载下,FlexLLM仍然可以保持80%以上的峰值微调吞吐量,而现有系统无法在微调方面取得任何进展。FlexLLM的源代码在https://github.com/flexflow/FlexFlow/上可用。

FlexLLM是一个创新系统,首次实现了在同一GPU上同时进行大型语言模型的推理和参数高效微调,解决了单独系统造成的资源浪费问题。通过引入token级微调和静态编译优化,它显著降低了内存开销,减少了微调的GPU需求,同时保持了低延迟和高吞吐量。在高负载推理情况下,仍能维持80%以上的微调性能。
已下架不支持订阅
2139

被折叠的 条评论
为什么被折叠?



