MiniMax-01重磅发布：突破Transformer架构，4M超长上下文

最新推荐文章于 2025-03-05 10:58:40 发布

原创最新推荐文章于 2025-03-05 10:58:40 发布 · 1.7k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

MiniMax强势来袭

继公布全模态模型家族后，时隔5个月，MiniMax再亮相两大模型，并且模型权重完全开源。这两款新模型不仅性能与GPT-4o和Claude-3.5-Sonnet平起平坐，在上下文窗口方面的表现尤其突出，处理能力甚至达到其他顶尖模型的 20 - 32倍。

更重要的是，这两款全新模型扩展了新型Lightning Attention架构，突破了传统Transformer架构，同时也是线性注意力机制的首次大规模实现。

什么是线性注意力机制？

线性注意力机制是对传统注意力机制的优化升级，将传统注意力机制的二次计算复杂度转变为线性复杂度。这大幅降低了计算复杂度，提升了模型训练速度。早在2019年就有人提出了这一理论，但从来没有人在大规模的模型上实现过。

如今，MiniMax率先找了解题答案，无疑为处理长文本、大规模数据等复杂任务提供了有力支持，实力证明了线性注意力机制在大规模商用模型中的可行性。

MiniMax-01 系列模型介绍

此次 MiniMax 发布的 MiniMax-01 系列包含两款模型：基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01。

MiniMax-Text-01

MiniMax-Text-01 是一个具有 4560 亿参数量的大规模语言模型，每个 token 会激活 459 亿参数。其主要技术特点包括：

采用 80 层网络架构
64 个注意力头，每个头维度为 128
32 个专家模型组成的 MoE 系统
支持高达 400 万 token 的推理上下文长度
词表大小达 200,064

在学术基准测试中，MiniMax-Text-01 展现出了令人瞩目的性能。例如在 MMLU 测试中达到 88.5 分，与顶级模型如 Claude 3.5 Sonnet（88.3 分）和 DeepSeek V3（88.5 分）处于同一水平。在 C-SimpleQA 任务中更是取得了 67.4 分的最佳成绩。

MiniMax-VL-01

MiniMax-VL-01 是一款将图像编码器和图像适配器集成到 MiniMax-Text-01 模型基础上开发的多模态模型，采用多模态大语言模型常用的 "ViT-MLP-LLM" 框架，具有动态分辨率功能。它不仅继承了文本处理的高效性，还具备强大的视觉理解能力，在多种视觉语言任务基准测试中展现出与顶尖模型相媲美的性能。