Mamba自从出道就一直被拿来和Transformer对比,文章巨多,带着标题的爆炸性字样“颠覆”,“全面包围”等等。有些文章偏向技术,有些文章偏向宣媒,小编认为还是需要比较客观独立的来分析它,尤其是其背后设计的思路以及演化的过程更加重要。因此这个小专题将从历史说起,沿着SSM、S4、HIPPO一路走来,期间还会抛弃冗杂的文辞,以更加接地气的方式打开模型设计的思维逻辑。
Mamba
Mamba的标志性图片为封面图,是一种新的LLM架构。它集成了结构化状态空间序列(S4)模型来管理漫长的数据序列。S4结合了循环模型、卷积模型和连续时间模型的擅长,可以有效且高效地仿真长周期的依赖。这使得它能够处理不规则采样的数据,具有无限的上下文,并在整个训练和测试过程中保持计算效率。
Mamba 在S4范式的基础上进行了扩展,带来了一些值得注意的改进,特别是在时变操作方面。其架构围绕一种特殊的选择机制,根据输入修改SSM(结构化状态空间模型)的参数。因此,Mamba可以通过仅关注序列中的关键