Mamba:1 从RNN而聊起

Mamba自从出道就一直被拿来和Transformer对比,文章巨多,带着标题的爆炸性字样“颠覆”,“全面包围”等等。有些文章偏向技术,有些文章偏向宣媒,小编认为还是需要比较客观独立的来分析它,尤其是其背后设计的思路以及演化的过程更加重要。因此这个小专题将从历史说起,沿着SSM、S4、HIPPO一路走来,期间还会抛弃冗杂的文辞,以更加接地气的方式打开模型设计的思维逻辑。 

Mamba

Mamba的标志性图片为封面图,是一种新的LLM架构。它集成了结构化状态空间序列(S4)模型来管理漫长的数据序列。S4结合了循环模型、卷积模型和连续时间模型的擅长,可以有效且高效地仿真长周期的依赖。这使得它能够处理不规则采样的数据,具有无限的上下文,并在整个训练和测试过程中保持计算效率。

Mamba 在S4范式的基础上进行了扩展,带来了一些值得注意的改进,特别是在时变操作方面。其架构围绕一种特殊的选择机制,根据输入修改SSM(结构化状态空间模型)的参数。因此,Mamba可以通过仅关注序列中的关键

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值