【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter5 HIPPO as Orthogonal SSMs

本文是对MAMBA作者博士论文第五章的解读。该章从SSM视角重新审视HIPPO框架,将其推广到新的状态空间模型,介绍了正交SSM概念,探讨了HIPPO-LegT、HIPPO-LegS等方法,还对LegS方法进行推广,讨论有限窗口TO - SSMs及TO - SSMs的时间尺度和归一化等内容。

Chapter 5 HIPPO as Orthogonal SSMs

Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023.

本文是MAMBA作者的博士毕业论文,为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文,由于知识水平有限,只能尽自己所能概述记录,并适当补充一些相关数学背景,欢迎探讨与批评指正。内容多,分章节更新以免凌乱

第五章通过SSM的视角重新审视了HIPPO框架,将其细化并推广到了一系列新的状态空间模型。这一部分包括对HIPPO的多种实例化,以及如何初始化这一系列SSM的各个参数。

5.1 Framework: Revisiting HIPPO as Orthogonal SSMs

本节从 SSM 的角度重新审视 HIPPO 框架,并引入正交 SSM 的概念,捕捉其在线记忆的主要目的。

5.1.1 Summary of HIPPO Matrices

本节先回顾了之前章节HIPPO 生产的多种具有特定公式的算子:

image-20240121162041282

明确第一步是用 SSM 语言重新表述 HIPPO 算子的定义。 HIPPO 的目标是找到一个适当选择的 SSM 基 (A,B)(A,B)(A,B),以便在任何时间 ttt,当前状态 x(t)x(t)x(t) 可以用于近似重建直到时间 ttt 的整个输入 uuu

5.1.2 Orthogonal State Space Models

论文首先给出了一些抽象定义:

定义5.1 如果一个状态空间模型(SSM)由(A(t),B(t))(A(t), B(t))(A(t),B(t))组成,并且对于基函数pn(t,s)p_{n}(t, s)pn(t,s)和非负的测量函数ω(t,s)≥0\omega(t, s) \geq 0ω(t,s)0,SSM基内核Kn(t,s)=pn(t,s)ω(t,s)K_{n}(t, s)=p_{n}(t, s) \omega(t, s)Kn(t,s)=pn(t,s)ω(t,s)在所有时间点ttt满足以下条件,那么这个SSM称为正交状态空间模型(O-SSM):

在所有时间点t,xn(t)=∫−∞tKn(t,s)u(s)dsx_{n}(t)=\int_{-\infty}^{t} K_{n}(t, s) u(s) d sxn(t)=tKn(t,s)u(s)ds (5.4)

并且 ∫−∞tpn(t,s)pm(t,s)ω(t,s)ds=δnm\int_{-\infty}^{t} p_{n}(t, s) p_{m}(t, s) \omega(t, s) d s=\delta_{n m}tpn(t,s)pm(t,s)ω(t,s)ds=δnm

其中,δnm\delta_{n m}δnm是Kronecker delta函数。

对于时不变 O-SSM (TO-SSM) ,Kn(t,s)=:Kn(t−s)K_{n}(t, s)=: K_{n}(t-s)Kn(t,s)=:Kn(ts),给定ω(t−s):=ω(t,s)\omega(t-s):=\omega(t, s)ω(ts):=ω(t,s)pn(t−s):=pn(t,s)p_{n}(t-s):= p_{n}(t, s)pn(ts):=pn(t,s)

对于 O-SSM,(p,ω)(p, \omega)(p,ω)KKK 是彼此唯一确定的,因此我们可以通过其中之一来引用 OSSM。一个方向是显而易见的:(p,ω)(p, \omega)(p,ω)通过 Kn(t,s)=pn(t,s)ω(t,s)K_{n}(t, s)=p_{n}(t, s) \omega(t, s)Kn(t,s)=pn(t,s)ω(t,s) 确定 KKK

这个公式第一次看符号较多,论文说明较少,对这个定义补充解读一下:

定义5.1中描述的正交状态空间模型(O-SSM)是一种特殊类型的状态空间模型(SSM),其特点在于它使用了特定的基函数和测量函数来构建状态向量。

  1. 状态空间模型(SSM):SSM是一种用于描述动态系统的数学模型,通常由状态向量和输入信号组成。在这个定义中,SSM由一对函数A(t)A(t)A(t)B(t)B(t)B(t)表示,这些函数定义了系统的动态行为。
  2. 基函数pn(t,s)p_{n}(t, s)pn(t,s)和测量函数ω(t,s)\omega(t, s)ω(t,s):在O-SSM中,基函数pn(t,s)p_{n}(t, s)pn(t,s)和测量函数ω(t,s)\omega(t, s)ω(t,s)是核心概念。基函数通常用于表示系统状态的不同方面,而测量函数用于加权这些状态。这些函数共同定义了系统如何响应输入信号。
  3. 函数Kn(t,s)K_{n}(t, s)
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值