【论文专辑】2024年大模型推理优化论文精选第六期

引言

OSDI (USENIX Symposium on Operating Systems Design and Implementation) 和SOSP (ACM Symposium on Operating Systems Principles) 是计算机操作系统领域最重要的两大国际会议,在国际上享有极高的学术声誉,也是 CCF 推荐的 A 类会议。本文整理了 OSDI 2024 和 SOSP 2024 所有与大语言模型 (LLM) 推理优化相关的论文共10篇,这些论文中提出的技术,比如 Chunked Prefill、Prefix-Caching、P/D分离 等已经被当前主流的推理引擎 vLLM 和 TensorRT-LLM 等所采用。


OSDI 2024

1. Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

随着 LLM 的兴起,基于 LLM 的应用程序日益增多,然而公共 LLM 服务的 API 以请求为中心,无法获取应用级信息,如请求所属应用、请求间依赖关系及相似性等,只能优化单个请求性能,导致应用端到端性能不佳。具体地,LLM 应用程序往往需要多次调用 LLM 完成任务,现有的LLM推理服务因不了解请求间依赖关系,使客户端与服务端交互频繁,产生大量网络和排队延迟,增加了连续请求的开销。此外,LLM 请求在同一应用内也有不同调度偏好,如文档摘要应用中 Map 请求和 Reduce 请求需求不同,Map 请求更关注吞吐量的优化,而Reduce 请求更关注时延的优化,但公共 LLM 服务无法区分,影响端到端体验。本文设计了Parrot 系统,并且提出语义变量(Semantic Variable)这一统一抽象,用于向公共 LLM 服务暴露应用的请求依赖信息,通过对语义变量的分析,实现对 LLM 请求的依赖关系分析和优化。

具体地,Parrot 检测多个LLM请求之间的共同提示前缀,并考虑前缀共享的收益来进行请求调度,减少了冗余的Key-Value存储和前缀的重复Prefill计算。除此之外,一次性提交整个DAG任务,并且使用消息队列来缓存这些请求,从而避免频繁的客户端和服务器之间的交互。最后,Parrot 根据不同的应用性能目标(延迟,吞吐等)进行性能推导,将所有性能目标相同的任务节点一起调度,通过降低性能目标为延迟的请求的 Batch Size,降低其推理延迟,通过增加性能目标为吞吐量的请求的 Batch Size,提高其推理吞吐量。

DAG 型推理任务示例1.png

论文链接:https://www.usenix.org/conference/osdi24/presentation/lin-chaofan

开源仓库:https://github.com/microsoft/ParrotServe

研究机构:上海交通大学,微软研究院

2. ServerlessLLM: Low-Latency Serverless Inference for Large Language Models

LLM 在无服务器推理场景下,由于模型的加载时间长,导致冷启动延迟显著,影响了用户体验。这篇论文介绍了一种名为 ServerlessLLM 的分布式系统,通过利用推理服务器层次化的硬盘和内存资源,实现高效的本地检查点存储和加载,并且优化模型加载调度,从而解决 LLM 无服务器推理中的模型加载延迟问题。

具体地,ServerlessLLM 利用层次化的存储带宽来加速大模型 LLM Chekpoint 的加载,并且提出了一种新的 Checkpoint 加载方法,这种方法支持序列化的,基于块的读取和高效的存内 Tensor 寻址,从而能够加速从硬盘到GPU的LLM参数读取。除此之外,ServerlessLLM提出了高效的在线请求迁移算法,不迁移请求的 KV Cache,只迁移请求和已经生成的结果,并且在新的实例上重新计算 KV Cache,从而可以将正在处理的请求快速迁移到新的实例。此外,ServerlessLLM 还支持模型加载调度算法,当新请求到达时,做出在GPU服务器集群中迁移已加载模型和加载新模型的决策。

2.png

论文链接:https://www.usenix.org/conference/osdi24/presentation/fu

开源仓库:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值