Neurips 2024 1 intro MOE的挑战 大多数MoE模型必须从头开始训练,使用随机初始化的权重 意味着训练MoE模型需要大量的GPU小时和海量数据 ——>提出了MoE Jetpack,一种将预训练密集检查点微调到MoE模型中的新方法 利用密集预训练的沉没成本来增强MoE模型的性能,并加速收敛过程 2 方法 3 实验