该问题归类到Transformer架构问题集——架构变体——高效架构。请参考LLM数学推导——Transformer架构问题集。
1. 问题背景:当 Transformer 遭遇 “内存墙”
想象你要处理一本 10 万字的小说,传统 Transformer 的注意力机制需要为每个词计算与其他所有词的关联,内存占用随序列长度呈二次方爆炸(复杂度 )。假设每个词向量是 1024 维,10 万字的注意力矩阵就需要存储约
个参数,这相当于把整个图书馆的信息塞进一个书包,显然不现实。
记忆压缩 Transformer 的破局点:通过池化操作将长序列 “压缩” 成短序列(如把 10000 词压缩到 1000 词),直接降低序列长度 n,让复杂度从 降至
(
)。但压缩必然伴随信息损失 —— 就像用滤镜模糊图片,如何确保关键信息(如主角名字、剧情转折)不被过度丢弃?证明信息损失上界,就是给这种 “模糊” 划定一个理论边界,告诉我们 “最坏情况下,信息最多会丢多少”,从而评估模型的可靠性。
2. 技术原理:从 “暴力压缩” 到数学量化
池化操作的本质是分组聚合:将长序列划分为多个块,每个块生成一个 “代表向量”,用这些代表向量代替原始序列。常见方法包括:
- 平均池化:块内向量求平均(保留整体趋势,丢失局部细节)
- 最大池化:取块内最大值(保留最强特征,忽略次要信息)
- 加权池化:根据注意力权重聚合(引入智能筛选,但计算更复杂)
以最基础的平均池化为例,假设序列长度 n = mk(分成 m 块,每块 k 词),第 i 块的代表向量是:

最低0.47元/天 解锁文章
974

被折叠的 条评论
为什么被折叠?



