论文阅读笔记——Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsit

原创

于 2025-04-20 12:00:00 发布 · 1.6k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #笔记 #Transformer #MoE #语言模型 #人工智能 #Deepseek

Switch Transformers 论文
Switch Transformer 在 Mixtral of Experts 的基础上，简化路由机制，仅选择一个专家，采用动态分配 token，结合数据并行+模型并行+专家并行，预训练速度相比 T5 提升 4-7 倍，支持万亿参数规模。
在这里插入图片描述

专家: 分布在不同的 device 上, 每个专家是一个 FFN 网络, 有独立的权重；
专家容量: 每个专家处理的 batch 大小, 公式为 $\frac{\text{tokens per batch}}{\text{num experts}} · \text{capacity factor}$
容量系数: 计算专家容量时乘上系数, 可以为专家多分配一些 buffer 来改善 token 溢出的情况
如果专家容量系数设置过小,，太多的 token 被路由到一个专家上,，会造成溢出的 token 走了残差分支直接传给下一层；如果专家容量系数设置过大,，会造成内存和计算的浪费
$\text{expert capacity}=\left(\frac{\text{tokens per batch}}{\text{number of experts}}\right)\times\text{capacity factor}.$
对于 Switch Transformer，辅助损失会被加到总损失上，给定 i 从 1 到 N 的 N 个专家，一个 batch $\mathcal{B}$ 中有 T 个 token，损失计算如下：
$\begin{aligned} loss=\alpha · N · \sum_{i=1}^Nf_i·P_i \\f_i =\frac{1}{T}\sum_{x\in\mathcal{B}}1\{argmax\quad p(x)=i\} \\P_i=\frac{1}{T}\sum_{x\in\mathcal{B}}p_i(x) \end{aligned}$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

寻丶幽风

关注关注

21
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【NLP】第15章从 NLP 到与任务无关的 Transformer 模型

sikh_0529的博客

09-26

7203

到目前为止，我们已经检查了具有编码器和解码器层的原始 Transformer 模型的变体，并且我们探索了具有仅编码器或仅解码器层堆栈的其他模型。此外，层和参数的大小也增加了。然而，Transformer 的基本架构保留了其具有相同层的原始结构和注意力头计算的并行化。在本章中，我们将探索创新的 Transformer 模型，这些模型尊重原始 Transformer 的基本结构，但会做出一些重大改变。将出现许多变形金刚模型，就像一盒乐高©碎片提供的许多可能性一样。您可以通过数百种方式组装这些部件！

[MoE论文翻译]Switch Transformer通过简单高效的稀疏性扩展到万亿参数模型

强化学习曾小健

06-26

1397

在深度学习中，模型通常对所有输入重用相同的参数。专家混合 (MoE) 模型违背了这一点，而是为每个传入示例选择不同参数。结果是一个稀疏激活的模型——参数数量惊人——但计算成本恒定。然而，尽管教育部取得了一些显着的成功，但广泛采用仍因复杂性、通信成本和训练不稳定而受到阻碍。我们通过引入开关变压器来解决这些问题。我们简化了 MoE 路由算法，并设计了直观的改进模型，降低了通信和计算成本。我们提出的训练技术减轻了不稳定性，并且我们首次展示了大型稀疏模型可以使用较低精度（bfloat16）格式进行训练。

参与评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2025.04.21
你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。