目录
残差思想回顾
经典 ResNet 通过
x l + 1 = x l + F ( x l , W l ) x_{l+1}=x_{l}+\mathcal{F}\left(x_{l},W_{l}\right) xl+1=xl+F(xl,Wl)
将恒等映射引入深网,缓解梯度爆炸/消失,为后续 可训练缩放、门控、归一化重排 等改法奠定了基础。
Transformer 中的残差迁移
标准 Pre‑LN/Post‑LN 结构
变体 | 公式 | 特点 |
---|---|---|
Post‑LN | x l + 1 = LN ( x l + G l ( x l ) ) x_{l+1}= \text{LN}\left(x_l+\mathcal{G}_l(x_l)\right) xl+1=LN(xl+Gl(xl)) | 训练早期稳定,但深层易梯度爆炸 |
Pre‑LN | x l + 1 = x l + G l ( LN ( x l ) ) x_{l+1}= x_l+\mathcal{G}_l\left(\text{LN}(x_l)\right) xl+1 |