是什么门的缩写_MoE: 稀疏门控制的专家混合层

原创

于 2020-12-23 08:24:36 发布

· 570 阅读

·

1

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#是什么门的缩写

MoE（Mixture-of-Experts）通过引入稀疏门机制，实现大模型容量提升，降低计算成本。文章探讨了MoE的动机、难点、模型结构、批缩小问题、均衡问题及实验结果，指出MoE在处理大规模数据时能有效提高效率并保持良好性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Moe，是Mixture-Of-Experts的缩写，可以在保证运算速度的情况下，将模型的容量提升>1000倍。

动机

现在的模型越来越大，训练样本越来越多，每个样本都需要经过模型的全部计算，这就导致了训练成本的平方级增长。

为了解决这个问题，参考文献[1]提出了一种方式，即将大模型拆分成多个小模型，对于一个样本来说，无需经过所有的小模型去计算，而只是激活一部分小模型进行计算，这样就节省了计算资源。

那么如何决定一个样本去经过哪些小模型呢？这就引入了一个稀疏门机制，即样本输入给这个门，得到要激活的小模型索引，这个门需要确保稀疏性，从而保证计算能力的优化。

难点

听起来这个方法其实还是很直接的，那么为什么之前没有人做呢？主要因为以下几点：

现在的设备，比如GPU，比较擅长做运算，不擅长做分支。
大批量是训练模型的必须，但是这种方式下会导致每个小模型的样本数较少，无法训练得到好的模型
网络通信是瓶颈。
为了控制稀疏性，可能需要在loss上去做些改进，确保模型质量和小模型上的负载均衡
模型容量对大数据集比较重要，现有的工作都是在类似cifar10之类的数

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。