From Sparse to Soft Mixtures of Experts

828 篇文章

已下架不支持订阅

本文介绍了一种名为Soft MoE的新型稀疏Transformer架构,旨在解决稀疏混合专家模型(MoE)的训练不稳定性、token丢失等问题。Soft MoE通过执行隐含的软分配,允许所有输入token的不同加权组合传递给每个专家,实现了更高的模型容量和更低的推理成本。在图像分类和对比学习实验中,Soft MoE表现出优于标准Transformer和流行MoE变体的性能,同时保持较低的推理成本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列的文章,针对《From Sparse to Soft Mixtures of Experts》的翻译。

摘要

稀疏混合专家体系结构(MoE)规模模型容量,而不会大幅增加训练或推理成本。尽管MoE取得了成功,但仍存在许多问题:训练不稳定、token丢失、无法扩大专家数量或微调无效。在这项工作中,我们提出了Soft MoE,这是一种完全可微的稀疏Transformer,它解决了这些挑战,同时保持了MoE的优势。软MoE通过将所有输入token的不同加权组合传递给每个专家来执行隐含的软分配。与其他MoE工作一样,软MoE的专家只处理(组合的)token的子集,从而以更低的推理成本实现更大的模型容量。在视觉识别方面,Soft MoE大大优于标准Transformer(ViTs)和流行的MoE变体(token选择和专家选择)。例如,Soft MoE Base/16需要比ViT Huge/14低10.5倍的推理成本(5.7倍的挂钟时间),同时在类似训练后匹配其性能。软MoE的扩展性也很好:在16个MoE层中拥有128名专家的软MoE Huge/14的参数比ViT Huge/14多了40倍以上,而推理时间成本仅增长了2%,而且性能要好得多。

1 引言

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值