MinMax-M1:超越DeepSeek,支持百万级token上下文

作者 | 欠阿贝尔两块钱 来源 | AIGC面面观

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『大模型』技术交流群

本文只做学术分享,如有侵权,联系删文

主要贡献

1.高效混合架构设计:结合MoE架构与Lightning Attention)的模型MiniMax-M1,支持百万级上下文窗口(1M tokens),生成长度达80K tokens时FLOPs仅为传统注意力模型的25%。
2.超越DAPO的算法CISPO:通过剪裁重要性采样权重提升RL效率,相比DAPO实现2倍加速,避免了传统方法(如PPO/GRPO)对低概率token有更好的采样效果。
3.可扩展上下文:支持从40K到80K Token生成长度的扩展。

当前面临的挑战

1.计算精度偏移训练与推理阶段的计算精度差异导致Token概率偏移,需将LM头部输出精度提升至FP32以对齐概率分布

2.长生成稳定性问题:长文本响应容易出现输出不稳定,被截断的问题。
3.奖励模型不稳定:奖励模型对长文本的偏好可能误导RL训练,需要在线校准机制。

核心方法

1.混合注意力架构

Lighting Attention:
采用I/O感知的线性注意力计算,通过分块计算和内存优化,将长序列复杂度从
每7层Lightning Attention后插入1层Softmax Attention,平衡局部与全局信息

2.CISPO算法:

重要性采样权重裁剪

其中 ,保留所有token梯度。

动态掩码机制:通过超参数控制梯度保留范围,兼容PPO信任域策略:

优势:保留所有Token的梯度贡献,避免PPO/DAPO对关键低概率Token的奖励得分偏低

3.分阶段RL:

  • 分阶段RL数据混合:从规则验证任务(数学、代码)逐步过渡到通用领域任务,避免灾难性遗忘。

  • 上下文长度渐进扩展:从40K分阶段扩展至80K,根据困惑度与生成长度分布调整窗口。

4.持续预训练与SFT优化

  • 预训练增强:在7.5T token上扩展STEM、代码数据占比至70%,采用语义去重和分层上下文扩展(32K→1M token)

  • 监督微调注入长链式思考模式,数学/编程数据占SFT数据的60%,为RL提供高质量起点。

实验

AIME 2024准确率86.0%(开源模型第二),MMLU-Pro表现接近闭源模型Seed-Thinking-v1.5
AIME 2024 上 GRPO、DAPO 和 CISPO 的比较

参考

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

内容概要:本书《Deep Reinforcement Learning with Guaranteed Performance》探讨了基于李雅普诺夫方法的深度强化学习及其在非线性系统最优控制中的应用。书中提出了一种近似最优自适应控制方法,结合泰勒展开、神经网络、估计器设计及滑模控制思想,解决了不同场景下的跟踪控制问题。该方法不仅保证了性能指标的渐近收敛,还确保了跟踪误差的渐近收敛至零。此外,书中还涉及了执行器饱和、冗余解析等问题,并提出了新的冗余解析方法,验证了所提方法的有效性和优越性。 适合人群:研究生及以上学历的研究人员,特别是从事自适应/最优控制、机器人学和动态神经网络领域的学术界和工业界研究人员。 使用场景及目标:①研究非线性系统的最优控制问题,特别是在存在输入约束和系统动力学的情况下;②解决带有参数不确定性的线性和非线性系统的跟踪控制问题;③探索基于李雅普诺夫方法的深度强化学习在非线性系统控制中的应用;④设计和验证针对冗余机械臂的新型冗余解析方法。 其他说明:本书分为七章,每章内容相对独立,便于读者理解。书中不仅提供了理论分析,还通过实际应用(如欠驱动船舶、冗余机械臂)验证了所提方法的有效性。此外,作者鼓励读者通过仿真和实验进一步验证书中提出的理论和技术。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值