Mamba: Linear-Time Sequence Modeling with Selective State Spaces——Introduction 2

原创

于 2024-07-13 16:58:53 发布

· 849 阅读

·

9

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

一、

架构解释

新的架构被命名为Mamba，通过结合以前结构化状态空间模型（SSMs）的设计和Transformer中的多层感知机（MLP）块，简化了以前的深度序列模型架构。这种设计旨在创建一个更简单、更同质的架构，同时结合选择性状态空间的优点。以下是详细解释：

架构的关键组成部分

选择性状态空间：
- 状态空间在这里指的是能够有效表示和处理序列的模型。
- 选择性状态空间机制允许模型动态决定输入序列的哪些部分是重要的，应该保留或传播，以及哪些部分可以忽略或遗忘。
Transformer中的MLP块：
- 在Transformer模型中，MLP块用于自注意力机制之后进一步处理信息。
- MLP块通常由两个线性变换和中间的非线性激活函数（通常是ReLU）组成。

简化和同质的架构（Mamba）

Mamba架构结合了SSMs的优势和MLP块的简洁和高效。具体工作方式如下：

步骤1：输入嵌入

与其他序列模型类似，输入序列首先被嵌入到一个高维空间。这个嵌入将输入序列中的每个元素（例如，句子中的单词、时间序列中的数据点）转换为向量。

步骤2：选择性状态空间块

这个块负责选择性地传播信息。它使用根据

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。