HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference

文章主要内容总结

本文针对大型语言模型(LLMs)长上下文推理中GPU内存受限(尤其是KV缓存随上下文增长而膨胀)的问题,提出了一种混合CPU-GPU注意力机制HGCA。该机制通过以下方式实现高效推理:

  1. 计算分工:在GPU内存中保留近期生成的KV条目,对其执行密集注意力计算;在CPU内存中存储选定的重要KV条目,对其执行并行稀疏注意力计算。
  2. 结果融合:通过log-sum-exp融合策略高效合并GPU和CPU的注意力输出,最大限度减少PCIe传输开销。
  3. 稀疏化策略:引入适合CPU执行的细粒度、按注意力头(per-head)的稀疏化策略,在减少计算量的同时保留上下文相关性。
  4. 兼容性:无需重新训练模型,可无缝集成到现有LLM框架中。

实验表明,HGCA在商品GPU硬件上实现了更优的可扩展性(支持更长序列、更大批次),在性能和准确性上均优于现有稀疏注意力基线方法。

文章创新点

  1. 混合注意力架构:首次将GPU密集注意力与CPU稀疏注意力结合,充分利用GPU的计算效率和CPU的内存容量及控制逻辑优势,解决了单一设备推理的内存或计算瓶颈。
  2. log-sum-exp融合机制:通过融合GPU和CPU的部分注意力输出(而非传输原始KV缓存),显著降低PCIe传输开销,实现高效跨设备协作。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值