原文:https://zhuanlan.zhihu.com/p/18653363414
一、MiniMax-01 概述
这篇技术博客介绍了 MiniMax-01 系列模型,包括 MiniMax-Text-01(文本模型)和 MiniMax-VL-01(多模态模型)。该系列模型旨在突破现有大语言模型 (LLM) 和视觉语言模型 (VLM) 的性能瓶颈,在处理长上下文方面展现出显著优势。
二、MiniMax-01 的核心创新点
1. 线性注意力机制与高效扩展
-
线性注意力机制的选择:
-
MiniMax-01 选择了线性注意力机制,而非传统 Transformer 架构中的 softmax 注意力机制。这是因为线性注意力机制在理论上具有线性时间复杂度,更适合处理长序列。
-
具体来说,MiniMax-01 采用的是 闪电注意力 (Lightning Attention),这是对线性注意力机制的一种 I/O 感知优化实现,旨在解决现有线性注意力机制中计算效率的主要瓶颈——因果语言建模中的缓慢累积和 (cumsum) 操作。
-
核心创新:将注意力计算分为块内和块间两部分,分别使用左乘积和右乘积进行计算,从而避免了累积和操作,实现了理论上的线性复杂度。
-
性能优势:在实验中,闪电注意力机制在处理长序列时表现出稳定的训练速度,并且在大多数下游任务中与 softmax 注意力机制性能相当,甚至在检索任务上表现更优。
-
-
-
混合架构的探索:
-
为了弥补线性注意力机制在检索能力上的不足,MiniMax-01 探索了混合架构 (Hybrid-Lightning),即每隔 8 层用 softmax 注意力层替换闪电注意力层。
-
实验结果表明,混合架构在检索
-
-

最低0.47元/天 解锁文章
1664

被折叠的 条评论
为什么被折叠?



