
LLM-工程化
文章平均质量分 94
LLM-工程化
nopSled
一周一更
展开
-
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning翻译
扩大 Transformer 的上下文长度是一项挑战,因为其核心的注意力层对运行时和内存的要求是输入序列长度的二次方。理想情况下,我们希望超越标准的 2k 序列长度限制,以训练模型理解书籍、高分辨率图像和长篇视频。仅在去年,就出现了几种上下文比以前长得多的语言模型:GPT-4 的上下文长度为 32k,MosaicML 的 MPT 的上下文长度为 65k,Anthropic 的 Claude 的上下文长度为 100k。长文档查询和故事写作等新兴用例表明需要具有如此长上下文的模型。翻译 2025-02-16 19:08:13 · 58 阅读 · 0 评论 -
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awarenes翻译
Transformer模型已成为自然语言处理和图像分类等应用中最广泛使用的网络结构。Transformers逐渐变得更大和更深,但是使用更长的上下文仍然很困难,因为他们的核心,自注意力模块的时间和内存复杂度是序列长度的二次方。一个重要的问题是,提高注意力计算速度及内存效率是否可以帮助Transformer模型解决其运行时长和长序列的内存挑战。许多近似注意力方法旨在减少注意力的计算和内存要求。这些方法的范围包括稀疏近似,低秩近似,以及他们的组合。翻译 2023-07-30 14:42:10 · 614 阅读 · 0 评论