MiniMax是一家成立于2021年12月的中国人工智能科技公司,专注于多模态大模型研发,其核心团队由前商汤科技高管闫俊杰领衔。公司以创新的MoE(混合专家)架构和闪电注意力机制(Lightning Attention)技术著称,先后推出支持200K上下文长度的abab6.5模型和全球首个开源混合架构推理模型MiniMax-M125。
🔍 一、核心突破:超长上下文与算力优化
1.100万Token上下文支持
- 原生支持100万Token输入长度,与谷歌Gemini 2.5 Pro相当,是DeepSeek R1的8倍。
- 输出Token上限达8万,超越Gemini 2.5 Pro(6.4万),为当前全球最长输出推理模型。
2.推理效率大幅提升
- 深度推理时算力消耗仅为DeepSeek R1的25%-30% (例如生成8万Token)。
- 训练成本极低:仅用3周时间、512块H800 GPU完成强化学习阶段,租用成本约383.9万元人民币(53.47万美元)。
⚙️ 二、技术架构创新
1.混合架构设计
- 结合MoE(混合专家) 与自研的Lightning Attention(闪电注意力)机制,显著降低长序列计算复杂度。
- 模型参数量达4560亿,单Token激活参数为45.9亿,平衡性能与效率。
2.多阶段训练策略
- 通过监督微调、离线强化学习(如DPO)和在线强化学习三阶段优化推理能力。
💰 三、性价比与性能表现
1.成本效益领先
- 在保持高性能的同时,实现业内最高性价比,推理成本显著低于同类闭源及开源模型。
2.基准测试对标国际
- 多项测试持平或超越DeepSeek-R1、Qwen3等开源模型;
- 复杂任务表现突出:工具使用、软件工程等场景超越Claude 4 Opus和OpenAI o3。
🌐 四、行业影响与定位
1.填补国产高端推理模型空白
- 作为MiniMax首款开源推理模型,直接对标Google Gemini 2.5 Pro等国际闭源模型。
- 缓解此前因未推出推理模型引发的市场疑虑,巩固其在国内AI“六小虎”中的竞争地位。
2.推动技术普惠
- 低成本训练方案(如小规模GPU集群)降低行业准入门槛,加速推理模型普及。
💎 总结
MiniMax-M1通过混合架构创新(MoE + Lightning Attention)实现百万级上下文支持与算力效率跃升,以开源形式打破高端推理模型垄断,同时以极致性价比重塑行业标准。其技术路线(如线性注意力机制)延续自2025年1月开源的MiniMax-01系列,标志国产模型在推理赛道已具备国际竞争力。