MiniMax 国内首个 MoE 大语言模型全量上线啦

本文链接：https://blog.youkuaiyun.com/MiniMaxi/article/details/135816964

MiniMax发布了全量的MoE大语言模型abab6，它在处理复杂任务和提升训练效率上有所改进。文章介绍了使用MoE架构的原因，分享了abab6的测评结果，以及邀请用户参与体验和提供反馈。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天，经过了半个月的部分客户的内测和反馈，MiniMax 全量发布大语言模型 abab6，为国内首个 MoE 大语言模型。在 MoE 结构下，abab6 拥有大参数带来的处理复杂任务的能力，同时模型在单位时间内能够训练足够多的数据，计算效率也可以得到大幅提升。改进了 abab5.5 在处理更复杂、对模型输出有更精细要求场景中出现的问题。

我们会在这篇文章中与大家分享为什么使用 MoE 架构，abab6 大语言模型的测评情况，以及在最后附上申请使用的链接。

为什么使用 MoE 架构？

2023 年 4 月，MiniMax 发布了开放平台。过去半年多，我们陆续服务了近千家客户，包括金山办公、小红书、腾讯、小米和阅文在内的多家头部互联网公司，MiniMax 开放平台平均单日的 token 处理量达到了数百亿。这半年多来，客户给我们提供了很多有价值的反馈和建议。例如，大家认为我们做得比较好的地方有：在写作、聊天、问答等场景中，abab5.5 的表现不错，达到了 GPT-3.5 的水平。

但是和最先进的模型 GPT-4 相比，我们仍有显著的差距。主要体现在处理更复杂的、对模型输出有精细要求的场景时，存在一定概率违反用户要求的输出格式，或是在推理过程中发生错误。当然，这不仅是 abab5.5 的问题，也是目前除 GPT-4 以外，几乎所有大语言模型存在的缺陷。

为了解决这个问题，进一步提升模型在复杂任务下的效果，从 6 月份我们开始研发 MoE 模型——abab6 是我们的第二版 MoE 大模型（第一版 MoE 大模型已应用我们 C 端产品中）。Abab6的参数比上一个版本大一个量级，更大的模型意味着 abab6 可以更好的从训练语料中学到更精细的规律，完成更复杂的任务。

但仅扩大参数量会带来新的问题：降低模型的推理速度以及更慢的训练时间。在很多应用场景中，训练推理速度和模型效果同样重要。为了保证 abab6 的运算速度，我们使用了 MoE (Mixture of Experts 混合专家模型）结构。在该结构下，模型参数被划分为多组“专家”，每次推理时只有一部分专家参与计算。基于 MoE 结构，abab6 可以具备大参数带来的处理复杂任务的能力；计算效率也会得到提升，模型在单位时间内能够训练足够多的数据。

目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。为了训练 abab6，我们自研了高效的 MoE 训练和推理框架，也发明了一些 MoE 模型的训练技巧。到目前为止，abab6 是国内第