
论文笔记
文章平均质量分 90
Leenyu0629
东北大cs本 北交cs硕nlp方向
展开
-
【论文笔记】Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference
大型语言模型在各个领域表现出色,但由于长序列推理所需的键值(KV)缓存不断扩大,面临内存和时间效率的挑战。最近的努力试图在运行时通过淘汰大量非关键缓存元素,将KV缓存大小减少到给定的内存预算,同时保留生成质量。我们重新审视当前的淘汰方法,发现它们基本上最小化了多头自注意力机制预淘汰和淘汰后输出之间的L1淘汰损失的上界。此外,我们的分析表明,跨注意力头均匀分配预算的常见做法损害了它们淘汰后生成质量。鉴于这些发现,我们提出了一个简单而有效的自适应预算分配算法。原创 2024-11-12 12:34:30 · 726 阅读 · 0 评论 -
【论文笔记】 SnapKV
大型语言模型(LLMs)在处理长上下文方面取得了显著进展,其中键值(KV)缓存在提升模型性能中起到了关键作用。然而,随着输入长度的增加,KV缓存的增长对内存和时间效率提出了挑战。为了解决这个问题,本文提出了SnapKV,一种创新的、无需微调的KV缓存压缩方法,在保持实际应用中相似性能的情况下,有效地缩小了KV缓存大小。我们发现,模型中的每个注意力头在生成过程中始终专注于特定的提示注意力特征。同时,这种稳定的模式可以从提示末端的“观察”窗口中获得。原创 2024-11-10 22:47:05 · 717 阅读 · 0 评论 -
【论文笔记】Efficient Streaming Language Models with Attention Sinks
在流式应用中部署大型语言模型(LLMs),例如多轮对话,是迫切需要的,但存在两大挑战。首先,在解码阶段,缓存先前token的Key和Value状态(KV)会消耗大量内存。其次,流行的LLMs无法泛化到比训练序列长度更长的文本。窗口注意力,即只缓存最近的KVs,是一种自然的方法——但我们展示了当文本长度超过缓存大小时它就会失败。我们观察到一个有趣的现象,即注意力汇,即使初始token在语义上不重要,保留KV也能在很大程度上恢复窗口注意力的性能。原创 2024-11-08 21:27:45 · 391 阅读 · 0 评论