LLM in a flash: Efficient Large Language Model Inference with Limited Memory

828 篇文章

已下架不支持订阅

本文提出了一种在内存有限的设备上运行大型语言模型(LLM)的新方法,通过将模型参数存储在闪存并按需加载到DRAM,减少了数据传输并提高了推理速度。通过“窗口化”和“行-列绑定”技术,实现了推理速度在CPU上提升4-5倍,GPU上提升20-25倍,允许运行大小是可用DRAM两倍的模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《LLM in a flash: Efficient Large Language Model Inference with Limited Memory》的翻译。

LLM in a flash:具有有限内存的高效大型语言模型推理

摘要

大型语言模型(LLM)是现代自然语言处理的核心,在各种任务中提供卓越的性能。然而,它们的大量计算和内存需求带来了挑战,尤其是对于DRAM容量有限的设备。本文通过将模型参数存储在闪存中,但将其按需带到DRAM中,来解决高效运行超过可用DRAM容量的LLM的挑战。我们的方法包括构建一个考虑闪存特性的推理成本模型,指导我们在两个关键领域进行优化:减少从闪存传输的数据量和读取更大、更连续的数据块。在这个以硬件为基础的框架中,我们介绍了两种主要技术。首先,“窗口化”通过重复使用先前激活的神经元来战略性地减少数据传输,其次,根据闪存的顺序数据访问强度量身定制的“行-列绑定”增加了从闪存读取的数据块的大小。这些方法共同实现了运行高达可用DRAM两倍大小的模型,与CPU和GPU中的原始加载方法相比,推理速度分别提高了4-5倍和20-25倍。我们将稀疏性感知、上下文自适应加载和面向硬件的设计相结合,为在内存有限的设备上有效推断LLM铺平了道路。

1 引言

2 闪存和LLM推理

3 从闪存加载</

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值