Mamba: Linear-Time Sequence Modeling with Selective State Spaces(论文笔记)

原创

已于 2024-03-27 20:43:17 修改 · 2.8k 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-03-26 17:28:08 首次发布

本文围绕Mamba模型展开，它是一种新的选择性状态空间模型。传统Transformer处理长序列效率低，传统SSM建模离散数据效果差。Mamba可处理离散数据、有选择地处理信息，采用硬件感知算法和更简单架构，在语言、音频和基因组学等多领域表现出色。

What can I say?

2024年我还能说什么？

Mamba out!

曼巴出来了！

原文链接：

[2312.00752] Mamba: Linear-Time Sequence Modeling with Selective State Spaces (arxiv.org)

原文笔记：

What：

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

SSM——>S4——>S6——>Mamba

SSM:（不能处理离散序列，不能有选择地处理信息A,B,C,D的值都是固定不变的）

一般SSMs包括以下组成

映射输入序列x(t)，比如在迷宫中向左和向下移动
到潜在状态表示h(t)，比如距离出口距离和 x/y 坐标
并导出预测输出序列y(t)，比如再次向左移动以更快到达出口

然而，它不使用离散序列(如向左移动一次)，而是将连续序列作为输入并预测输出序列

这里的h'(t)不是h(t)导数，是新的状态。SSM 假设系统(例如在 3D 空间中移动的物体)可以通过两个方程从其在时间 $t$ 时的状态进行预测「 当然，其实上面第一个方程表示成这样可能更好： $h(t) = Ah(t-1) + Bx(t)$ ，不然容易引发歧义 」

RNN本身就可以理解乘一个SSM

参数A春初这之前所有历史信息的浓缩精华（可以通过一系列系数组成的矩阵表示之），以基于A更新下一个时刻的空间状态hidden state

总之，通过求解这些方程，可以根据观察到的数据：输入序列和先前状态，去预测系统的未来状态

建立两个方程的统一视角：

S4：（离散化SSM、循环/卷积表示，基于HiPPO处理长序列，不能有选择的处理信息，A,B,C,D的值都是固定不变的）详见参考1

S6：SSM+Selection（可以处理离散数据，有选择地处理信息，训练效率降低）

在Mamaba中，作者让 $B$ 矩阵、 $C$ 矩阵、 $\Delta$ 成为输入的函数(即可学习或可训练的)，让模型能够根据输入内容自适应地调整其行为

Mamba: （可以处理离散数据+有选择地处理信息+硬件感知算法+更简单的SSM架构）

Why：

1、Transformer在处理长序列时存在着计算效率低下的问题，无法对有限窗口之外的任何信息进行建模，以及相对于窗口长度的二次缩放。

2、用于解决问题一的方法如线性注意力，门控卷积和循环模型以及结构化状态空间模型在表现上（在语言等重要模态上）不如注意力，他们无法执行基于内容的推理。(效果差的原因：不能像attention机制那样全局感知；缺乏对离散数据的的建模能力（SSM））

3、传统的SSM模型在建模离散和信息密集数据（例如文本）方面效果较差。S4能离散建模泵选择处理，S6能离散建模和选择处理又遇到了新的问题：无法将高效的卷积应用于训练以通过并行的方式提高训练效率，之后作者也提出了优化方法(idea3))

4、鉴于1，2，3，我们要寻求一种在计算效率和模型效果之间的平衡，找到同时在这两个方面表现都很优秀的模型

总之，序列模型的效率与效果的权衡点在于它们对状态的压缩程度：

高效的模型必须有一个小的状态(比如RNN或S4)
而有效的模型必须有一个包含来自上下文的所有必要信息的状态(比如transformer)

而mamba为了兼顾效率和效果，选择性的关注必须关注的、过滤掉可以忽略的

Challenge：

1、基于内容的长时记忆以及推理(应该包含上下文所有的必要信息)，能够以依赖于输入的方式有效地选择数据（即专注于或忽略特定输入）

2、较短的处理时间（训练时间以及测试时间）

Idea：Mamba: （可以处理离散数据+有选择地处理信息+硬件感知算法+更简单的SSM架构）

1、通过离散化操作解决了传统SSM的弱点（准确率上）

2、为了解决Challenge1，作者提出：让SSM参数成为输入的函数，允许模型根据当前token有选择地沿序列长度维度传播或忘记信息。（准确率上）

3、idea1和2 阻碍了将高效卷积应用于训练以通过并行的方式提高训练效率，为此作者在循环模式下设计了一个硬件感知的并行算法。（性能上）

4、作者将所涉及的ssm集成到简化的端到端神经网络架构中，而无需注意力模块甚至MLP块

（模型原创性，泛化性）

最低0.47元/天解锁文章

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。