本文是LLM系列文章,针对《HyperAttention: Long-context Attention in Near-Linear Time》的翻译。
摘要
我们提出了一种名为“超注意力”的近似注意力机制,以解决大型语言模型(LLM)中使用的长上下文日益复杂所带来的计算挑战。最近的工作表明,在最坏的情况下,二次时间是必要的,除非注意力矩阵的条目是有界的或矩阵具有较低的稳定秩。我们引入了两个度量参数:(1)归一化注意力矩阵中的最大列范数,以及(2)检测并去除大条目后,未归一化注意力矩阵中行范数的比率。我们使用这些细粒度的参数来捕捉问题的硬度。尽管有以前的下界,但只要上述参数较小,即使矩阵具有无界条目或较大的稳定秩,我们也能够实现线性时间采样算法。HyperAttention采用模块化设计,可轻松集成其他快速低级实现,尤其是FlashAttention。根据经验,HyperAttention采用位置敏感哈希(LSH)来识别大型条目,优于现有方法,与FlashAttention等最先进的解决方案相比,速度显著提高。我们在各种不同的长上下文长度数据集上验证了HyperAttention的经验性能。例如,HyperAttention使ChatGLM2在32k上下文长度上的推理时间加快了50%,而困惑从5.6增加到6.3。在更大的上下文长度(例如131k)上,使用因果掩蔽,HyperAttention在单个注意力层上提供了5倍的加速。
1 引言
2 前言
3 算法
4 实验
5 结论
在这项工作中,我们通过简化现有的基于核密度估计(KDE)的算法,提出了一种简单的线性时间注
超注意力:线性时间内的长上下文处理
本文提出了一种名为“超注意力”的机制,用于解决大型语言模型中的长上下文计算难题。通过引入新的度量参数,实现了线性时间复杂度的注意力采样算法,提升了处理效率。实验显示,HyperAttention在保持性能的同时,显著加速了推理速度,尤其在长上下文长度的情况下。
已下架不支持订阅
3966

被折叠的 条评论
为什么被折叠?



