What can I say?
2024年我还能说什么?
Mamba out!
曼巴出来了!

原文链接:
[2312.00752] Mamba: Linear-Time Sequence Modeling with Selective State Spaces (arxiv.org)
原文笔记:
What:
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
SSM——>S4——>S6——>Mamba
SSM:(不能处理离散序列,不能有选择地处理信息A,B,C,D的值都是固定不变的)
一般SSMs包括以下组成
- 映射输入序列x(t),比如在迷宫中向左和向下移动
- 到潜在状态表示h(t),比如距离出口距离和 x/y 坐标
- 并导出预测输出序列y(t),比如再次向左移动以更快到达出口
然而,它不使用离散序列(如向左移动一次),而是将连续序列作为输入并预测输出序列
这里的h'(t)不是h(t)导数,是新的状态。SSM 假设系统(例如在 3D 空间中移动的物体)可以通过两个方程从其在时间 时的状态进行预测「 当然,其实上面第一个方程表示成这样可能更好:
,不然容易引发歧义 」
RNN本身就可以理解乘一个SSM
参数A春初这之前所有历史信息的浓缩精华(可以通过一系列系数组成的矩阵表示之),以基于A更新下一个时刻的空间状态hidden state
总之,通过求解这些方程,可以根据观察到的数据:输入序列和先前状态,去预测系统的未来状态
建立两个方程的统一视角:

S4:(离散化SSM、循环/卷积表示,基于HiPPO处理长序列,不能有选择的处理信息,A,B,C,D的值都是固定不变的)详见参考1


S6:SSM+Selection(可以处理离散数据,有选择地处理信息,训练效率降低)
在Mamaba中,作者让矩阵、
矩阵、
成为输入的函数(即可学习或可训练的),让模型能够根据输入内容自适应地调整其行为
Mamba: (可以处理离散数据+有选择地处理信息+硬件感知算法+更简单的SSM架构)
Why:
1、Transformer在处理长序列时存在着计算效率低下的问题,无法对有限窗口之外的任何信息进行建模,以及相对于窗口长度的二次缩放。
2、用于解决问题一的方法如线性注意力,门控卷积和循环模型以及结构化状态空间模型在表现上(在语言等重要模态上)不如注意力,他们无法执行基于内容的推理。(效果差的原因:不能像attention机制那样全局感知;缺乏对离散数据的的建模能力(SSM))
3、传统的SSM模型在建模离散和信息密集数据(例如文本)方面效果较差。S4能离散建模泵选择处理,S6能离散建模和选择处理又遇到了新的问题:无法将高效的卷积应用于训练以通过并行的方式提高训练效率,之后作者也提出了优化方法(idea3))
4、鉴于1,2,3,我们要寻求一种在计算效率和模型效果之间的平衡,找到同时在这两个方面表现都很优秀的模型

总之,序列模型的效率与效果的权衡点在于它们对状态的压缩程度:
- 高效的模型必须有一个小的状态(比如RNN或S4)
- 而有效的模型必须有一个包含来自上下文的所有必要信息的状态(比如transformer)
而mamba为了兼顾效率和效果,选择性的关注必须关注的、过滤掉可以忽略的

Challenge:
1、基于内容的长时记忆以及推理(应该包含上下文所有的必要信息),能够以依赖于输入的方式有效地选择数据(即专注于或忽略特定输入)
2、较短的处理时间(训练时间以及测试时间)
Idea:Mamba: (可以处理离散数据+有选择地处理信息+硬件感知算法+更简单的SSM架构)
1、通过离散化操作解决了传统SSM的弱点(准确率上)
2、为了解决Challenge1,作者提出:让SSM参数成为输入的函数,允许模型根据当前token有选择地沿序列长度维度传播或忘记信息。(准确率上)
3、idea1和2 阻碍了将高效卷积应用于训练以通过并行的方式提高训练效率,为此作者在循环模式下设计了一个硬件感知的并行算法。(性能上)
4、作者将所涉及的ssm集成到简化的端到端神经网络架构中,而无需注意力模块甚至MLP块
(模型原创性,泛化性)

本文围绕Mamba模型展开,它是一种新的选择性状态空间模型。传统Transformer处理长序列效率低,传统SSM建模离散数据效果差。Mamba可处理离散数据、有选择地处理信息,采用硬件感知算法和更简单架构,在语言、音频和基因组学等多领域表现出色。

最低0.47元/天 解锁文章
4189





