【大模型与机器学习解惑】对 NLP 或语音任务,如何把残差思想迁移到 Transformer / WaveNet 中?

目录

  1. 残差思想回顾
  2. Transformer 中的残差迁移
    1. 标准 Pre‑LN/Post‑LN 结构
    2. 可训练缩放:ReZero
    3. 深层稳态缩放:DeepNorm / DeepNet
  3. WaveNet 中的残差迁移
    1. 基本残差-跳跃框架
    2. 门控残差与条件输入
  4. 代码示例与说明
  5. 小结

残差思想回顾

经典 ResNet 通过

x l + 1 = x l + F ( x l , W l ) x_{l+1}=x_{l}+\mathcal{F}\left(x_{l},W_{l}\right) xl+1=xl+F(xl,Wl)

将恒等映射引入深网,缓解梯度爆炸/消失,为后续 可训练缩放、门控、归一化重排 等改法奠定了基础。


Transformer 中的残差迁移

标准 Pre‑LN/Post‑LN 结构

变体 公式 特点
Post‑LN x l + 1 = LN ( x l + G l ( x l ) ) x_{l+1}= \text{LN}\left(x_l+\mathcal{G}_l(x_l)\right) xl+1=LN(xl+Gl(xl)) 训练早期稳定,但深层易梯度爆炸
Pre‑LN x l + 1 = x l + G l ( LN ( x l ) ) x_{l+1}= x_l+\mathcal{G}_l\left(\text{LN}(x_l)\right) xl+1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值