该问题归类到Transformer架构问题集——注意力机制——跨模态与多模态。请参考LLM数学推导——Transformer架构问题集。
1. 问题背景:长序列建模的复杂度困境
传统 Transformer 的自注意力机制时间复杂度为 (n 为序列长度),当处理文档级长文本(如
甚至更长)时,计算量会爆炸式增长(如
百万次操作)。Longformer 提出的 ** 滑动窗口注意力(Sliding Window Attention)** 通过限制每个位置的注意力范围,将复杂度降至
(k 为窗口大小),使其能高效处理长序列。
2. 滑动窗口注意力的核心机制
核心思想:每个位置仅关注其左右各 k 个邻居,形成大小为 的局部窗口(边界位置窗口大小递减)。
- 非重叠窗口:早期实现中窗口不重叠,但会导致上下文断裂;
- 滑动窗口(重叠窗口):窗口每次滑动 s 步(通常
或 k),确保上下文连续性。 图示:对于序列
,若
,窗口依次为
、
、
、
,每个位置被

最低0.47元/天 解锁文章
395

被折叠的 条评论
为什么被折叠?



