Transformer——Q99 推导稀疏门控(Sparse Gating)的Top-k选择梯度近似

该问题归类到Transformer架构问题集——架构变体——稀疏/混合专家。请参考LLM数学推导——Transformer架构问题集

1. 问题背景:当离散选择遇到连续梯度 ——Top-k 门控的梯度困境

在混合专家模型(MoE)的稀疏门控机制中,Top-k 选择(如每个样本激活概率最高的 2-4 个专家)是实现 “稀疏激活” 的核心操作。然而,Top-k 本质是离散的硬选择(选择概率最高的 k 个专家,其余置零),这种 “非黑即白” 的决策在反向传播时会遇到梯度消失问题 —— 未选中专家的梯度为零,选中专家的梯度依赖于不连续的指示函数,导致优化器难以有效更新门控网络参数。

举个直观例子:假设门控输出概率为 [0.3, 0.3, 0.2, 0.2],Top-2 选择前两个专家(掩码 [1,1,0,0])。但在反向传播时,梯度无法告知门控网络 “第三个专家的概率需要提高多少才能进入 Top-2”,因为离散选择切断了概率与掩码之间的连续映射。梯度近似方法正是为解决这一困境而生,通过平滑的连续函数近似离散选择,让梯度能够流经门控网络,实现端到端训练。

2. 技术原理:从离散选择到连续近似的梯度桥梁

2.1 Top-k 选择的前向传播与梯度困境

假设门控网络输出未归一化得分向量s \in \mathbb{R}^m,Top-k 操作选择得分最高的 k 个专家,生成 one-hot 掩码m \in \{0,1\}^m

m_i = \begin{cases} 1 & s_i \in \text{top-k}(s) \\ 0 & \text{otherwise} \end{cases}

梯度困境

  • 离散掩码m_is_j的导数几乎处处为零(仅当s_j是 top-k 得分边界时可能非零,但概率为零)
  • 传统反向传播无法更新未选中专家的得分,导致门控网络优化失效

2.2 Gumbel-Softmax:用噪声实现梯度桥接

2.2.1 松弛 Top-k 选择

引入 Gumbel 噪声\epsilon \sim \text{Gumbel}(0,1),对得分添加扰动:

\tilde{s}_i = s_i - \log(-\log(\epsilon_i))

选择前 k 个带噪声的得分对应的专家,生成软掩码\hat{m},其中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨顿

唵嘛呢叭咪吽

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值