目前最强的语言模型!一文看懂Mamba到底对Transformer和RNN做了什么升级!

SSM(State Space Model)

在介绍Transformer,RNN,和Mamba之间的差异之前,我们需要先介绍一下同样是Mamba所基于的工作——SSM(State Space Model),也就是状态空间模型。

什么是状态空间模型?

SSM 是用于描述这些状态表示的模型,并根据某些输入预测它们的下一个状态可能是什么。

传统上,在时间 t 时,SSM:

  • 映射输入序列 x(t) 
  • 到潜在状态表示 h(t) 
  • 并推导出预测的输出序列 y(t)

但是,它不是使用离散序列,而是将连续序列作为输入并预测输出序列。

可以用下面一个公式来表示连续序列中SSM的原理。

它的目标是找到这种状态表示h(t)我们可以以便从输入序列转到输出序列。由h'(t)表示下一时刻的状态空间,它可以由这一时刻的状态空间h(t)和这一时刻的输入x(t)来表示。

而这一时刻的输出y(t)又可以由这一时刻的输入 x(t) 与隐藏状态h(t)来表示。

矩阵A、B、C 和 D通常也被称为参数,因为它们是可学习的。

我们可以用一个架构图来直观的了解SSM模型的过程

由于矩阵 D 类似于 skip-connection,因此SSM通常被视为没有 skip-connection 的以下内容。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值