MinMax-M1：超越DeepSeek，支持百万级token上下文

最新推荐文章于 2025-06-26 20:59:46 发布

转载最新推荐文章于 2025-06-26 20:59:46 发布 · 66 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247668789&idx=3&sn=3e462ce7a97f103f3e5ab84037be4c03&chksm=cfcd53af970b2396d8a56eef152230e8f7e16940abda2d299e834098059758e9f8f457f1d20a&scene=126&sessionid=0

作者 | 欠阿贝尔两块钱来源 | AIGC面面观

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『大模型』技术交流群

本文只做学术分享，如有侵权，联系删文

主要贡献

1.高效混合架构设计：结合MoE架构与Lightning Attention）的模型MiniMax-M1，支持百万级上下文窗口（1M tokens），生成长度达80K tokens时FLOPs仅为传统注意力模型的25%。
2.超越DAPO的算法CISPO：通过剪裁重要性采样权重提升RL效率，相比DAPO实现2倍加速，避免了传统方法（如PPO/GRPO）对低概率token有更好的采样效果。
3.可扩展上下文：支持从40K到80K Token生成长度的扩展。

当前面临的挑战

1.计算精度偏移：训练与推理阶段的计算精度差异导致Token概率偏移，需将LM头部输出精度提升至FP32以对齐概率分布。

2.长生成稳定性问题：长文本响应容易出现输出不稳定，被截断的问题。
3.奖励模型不稳定：奖励模型对长文本的偏好可能误导RL训练，需要在线校准机制。

核心方法

1.混合注意力架构

Lighting Attention:
采用I/O感知的线性注意力计算，通过分块计算和内存优化，将长序列复杂度从到
每7层Lightning Attention后插入1层Softmax Attention，平衡局部与全局信息。

2.CISPO算法：

重要性采样权重裁剪：

其中，保留所有token梯度。

动态掩码机制：通过超参数控制梯度保留范围，兼容PPO信任域策略：

优势:保留所有Token的梯度贡献，避免PPO/DAPO对关键低概率Token的奖励得分偏低。

3.分阶段RL：

分阶段RL数据混合：从规则验证任务（数学、代码）逐步过渡到通用领域任务，避免灾难性遗忘。
上下文长度渐进扩展：从40K分阶段扩展至80K，根据困惑度与生成长度分布调整窗口。

4.持续预训练与SFT优化

预训练增强：在7.5T token上扩展STEM、代码数据占比至70%，采用语义去重和分层上下文扩展（32K→1M token）。
监督微调：注入长链式思考模式，数学/编程数据占SFT数据的60%，为RL提供高质量起点。

实验

AIME 2024准确率86.0%（开源模型第二），MMLU-Pro表现接近闭源模型Seed-Thinking-v1.5

AIME 2024 上 GRPO、DAPO 和 CISPO 的比较

参考

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com