Mamba: Linear-Time Sequence Modeling with Selective State Spaces——Introduction 2

一、

架构解释

新的架构被命名为Mamba,通过结合以前结构化状态空间模型(SSMs)的设计和Transformer中的多层感知机(MLP)块,简化了以前的深度序列模型架构。这种设计旨在创建一个更简单、更同质的架构,同时结合选择性状态空间的优点。以下是详细解释:

架构的关键组成部分

  1. 选择性状态空间

    • 状态空间在这里指的是能够有效表示和处理序列的模型。
    • 选择性状态空间机制允许模型动态决定输入序列的哪些部分是重要的,应该保留或传播,以及哪些部分可以忽略或遗忘。
  2. Transformer中的MLP块

    • 在Transformer模型中,MLP块用于自注意力机制之后进一步处理信息。
    • MLP块通常由两个线性变换和中间的非线性激活函数(通常是ReLU)组成。

简化和同质的架构(Mamba)

Mamba架构结合了SSMs的优势和MLP块的简洁和高效。具体工作方式如下:

步骤1:输入嵌入
  • 与其他序列模型类似,输入序列首先被嵌入到一个高维空间。这个嵌入将输入序列中的每个元素(例如,句子中的单词、时间序列中的数据点)转换为向量。
步骤2:选择性状态空间块
  • 这个块负责选择性地传播信息。它使用根据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值