文献阅读：Mamba: Linear-Time Sequence Modeling with Selective State Spaces

最新推荐文章于 2025-10-09 16:34:29 发布

原创

最新推荐文章于 2025-10-09 16:34:29 发布 · 3.5k 阅读

·

24

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Mamba #Transformer #SSSM #S6 #SSM

文章介绍了Mamba模型，一种基于SelectiveStateSpaceModels的新型序列建模方法，旨在挑战Transformer的主导地位。Mamba在语言模型、DNA模型和语音模型中表现出良好性能，具有高速训练、可扩展性和内存效率。

文献阅读：Mamba: Linear-Time Sequence Modeling with Selective State Spaces

文献链接：https://arxiv.org/pdf/2312.00752.pdf
GitHub链接：https://github.com/state-spaces/mamba

1. 文章简介

这篇文章23年12月普林斯顿的一篇文章，文中提出了一个Mamba的模型结构，尝试挑战了一下Transformer的霸权地位。

众所周知，自从BERT和GPT分别在NLP任务以及生成任务上展现出绝对的统治力之后，transformer框架的模型同时开始进军CV和ASR领域，不断在各个领域当中出圈，大有一统天下的趋势。

不过，针对Transformer框架的挑战也是一直存在，从简单的对于Transformer框架中self attention结构的计算量优化到尝试复兴RNN的RetNet等等，整体的思路前者基本就是希望减少self attention的计算量从而使得可以容纳的context窗口长度，而后者干脆就回到RNN的框架来完全舍弃掉窗口的设置，通过设置并行训练的方式来修改掉RNN只能串行训练的问题。

这里，Mamba走的也是后者这个路线，完全舍弃掉了self-attention的框架，使用文中提到的state space model的框架来进行实现。

文中宣称：

Mamba模型不但可以无视掉context长度限制进行任意长文本的生成，还可以并行高速地训练，甚至有着很好的可扩展性，可以容纳大量参数，和transformer一样，在大数据预训练的框架下依然没有看到效果的瓶颈。

更牛逼的是，这篇文章的作者几乎是一己之力推着这个模型框架往前走，最早是一个S4的模型框架，然后优化成了H3的结果，到现在的Mamba，都是同一个团队沿着同一条路子走下来的，也是牛逼的厉害。不过可惜的是S4和H3那两篇文章我还没看过，所以这里对于Mamba的结构理解多少还有一点难度，后面会找时间去把剩下那两篇文章也看一下，或许对这个文章会有更好的一个理解。

2. 方法介绍

下面，我们首先来看一下Mamba的具体模型结构。

在这里插入图片描述

整体来说，Mamba的模型结构是在这篇文章的前作中提出的State Space Model（SSM）的基础上进行优化得到的，加上了选择机制并使之适应GPU的并行加速机制。

因此，我们下面就会遵循稳重的思路首先来看一下State Space Model，然后来看一下文中优化得到的Selective State Space Model，也就是文中的Mamba模型框架。

1. State Space Models

我们首先来考察一下State Space Model（SSM）。

本质上来说，包含输入 $x_t$ 输出 $y_t$ 以及态函数 $h_t$ ，且训练过程可以并行，然后infer过程可以做到迭代串行的模型结构都可以称之为SSM。

下面就是一个SSM的典型case，它参数主要包括4个部分 $(\Delta, A, B, C)$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。