大语言模型硬件利用与批量调优策略详解
1. 注意力机制相关技术
1.1 窗口注意力机制
窗口注意力(Window Attention)主要缓存最近 L 个令牌的键值(KV)状态,在推理阶段效率较高。但一旦使用了初始令牌的键和值,其性能会迅速下降。例如,当处理较长文本时,初始令牌的信息丢失会影响模型对整体文本的理解。
为了改进,我们可以采用滑动窗口注意力(Sliding Window Attention)。它用最近的令牌实现一个滑动窗口,在模型处理文本时,窗口填充令牌的 KV 状态,平衡了效率和内存管理。固定大小的窗口确保 KV 缓存中只保留一定数量的最近令牌,优化了内存使用和处理时间。当新令牌加入时,旧令牌会被移除。不过,当序列长度超过窗口最大容量时,模型性能会下降,因为早期上下文信息丢失,这在需要理解全文的场景中是个问题。
此外,自回归大语言模型存在一个特殊现象,即大量注意力分数会分配给初始令牌,这些令牌被称为注意力汇点(Attention Sinks),尽管它们可能没有语义意义。这是由于大语言模型中的 Softmax 操作要求所有上下文令牌的注意力分数总和为 1,即使当前查询与许多先前令牌不匹配,模型也会给初始令牌分配注意力值。
1.2 上下文长度扩展技术
语言模型的长度外推研究旨在让在短文本上训练的模型在测试或实际部署中能处理长文本,这对处理流式文本的应用尤为重要。目前有一些相关技术:
- 旋转位置嵌入(RoPE) :将相对位置信息集成到每个注意力层的查询和键中,以在扩展序列上保持上下文感知。但后续研究发现,当文本长度超过模型训练窗口时,其性能不佳。
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



