一、
架构解释
新的架构被命名为Mamba,通过结合以前结构化状态空间模型(SSMs)的设计和Transformer中的多层感知机(MLP)块,简化了以前的深度序列模型架构。这种设计旨在创建一个更简单、更同质的架构,同时结合选择性状态空间的优点。以下是详细解释:
架构的关键组成部分
-
选择性状态空间:
- 状态空间在这里指的是能够有效表示和处理序列的模型。
- 选择性状态空间机制允许模型动态决定输入序列的哪些部分是重要的,应该保留或传播,以及哪些部分可以忽略或遗忘。
-
Transformer中的MLP块:
- 在Transformer模型中,MLP块用于自注意力机制之后进一步处理信息。
- MLP块通常由两个线性变换和中间的非线性激活函数(通常是ReLU)组成。
简化和同质的架构(Mamba)
Mamba架构结合了SSMs的优势和MLP块的简洁和高效。具体工作方式如下:
步骤1:输入嵌入
- 与其他序列模型类似,输入序列首先被嵌入到一个高维空间。这个嵌入将输入序列中的每个元素(例如,句子中的单词、时间序列中的数据点)转换为向量。
步骤2:选择性状态空间块
- 这个块负责选择性地传播信息。它使用根据