【长文阅读】MAMBA作者博士论文＜MODELING SEQUENCES WITH STRUCTURED STATE SPACES＞-Chapter5 HIPPO as Orthogonal SSMs

最新推荐文章于 2025-06-05 18:19:19 发布

原创

最新推荐文章于 2025-06-05 18:19:19 发布 · 1.9k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法 #论文阅读

本文是对MAMBA作者博士论文第五章的解读。该章从SSM视角重新审视HIPPO框架，将其推广到新的状态空间模型，介绍了正交SSM概念，探讨了HIPPO-LegT、HIPPO-LegS等方法，还对LegS方法进行推广，讨论有限窗口TO - SSMs及TO - SSMs的时间尺度和归一化等内容。

Chapter 5 HIPPO as Orthogonal SSMs

Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023.

本文是MAMBA作者的博士毕业论文，为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文，由于知识水平有限，只能尽自己所能概述记录，并适当补充一些相关数学背景，欢迎探讨与批评指正。内容多，分章节更新以免凌乱

第五章通过SSM的视角重新审视了HIPPO框架，将其细化并推广到了一系列新的状态空间模型。这一部分包括对HIPPO的多种实例化，以及如何初始化这一系列SSM的各个参数。

5.1 Framework: Revisiting HIPPO as Orthogonal SSMs

本节从 SSM 的角度重新审视 HIPPO 框架，并引入正交 SSM 的概念，捕捉其在线记忆的主要目的。

5.1.1 Summary of HIPPO Matrices

本节先回顾了之前章节HIPPO 生产的多种具有特定公式的算子：

明确第一步是用 SSM 语言重新表述 HIPPO 算子的定义。 HIPPO 的目标是找到一个适当选择的 SSM 基 $(A, B)$ ，以便在任何时间 $t$ ，当前状态 $x (t)$ 可以用于近似重建直到时间 $t$ 的整个输入 $u$ 。

5.1.2 Orthogonal State Space Models

论文首先给出了一些抽象定义：

定义5.1 如果一个状态空间模型（SSM）由 $(A (t), B (t))$ 组成，并且对于基函数 $p_{n}(t, s)$ 和非负的测量函数 $ω(t,s)≥0\omega(t, s) \geq 0$ ，SSM基内核 $Kn(t,s)=pn(t,s)ω(t,s)K_{n}(t, s)=p_{n}(t, s) \omega(t, s)$ 在所有时间点 $t$ 满足以下条件，那么这个SSM称为正交状态空间模型（O-SSM）：

在所有时间点t， $xn(t)=∫−∞tKn(t,s)u(s)dsx_{n}(t)=\int_{-\infty}^{t} K_{n}(t, s) u(s) d s$ (5.4)

并且 $∫−∞tpn(t,s)pm(t,s)ω(t,s)ds=δnm\int_{-\infty}^{t} p_{n}(t, s) p_{m}(t, s) \omega(t, s) d s=\delta_{n m}$

其中， $δnm\delta_{n m}$ 是Kronecker delta函数。

对于时不变 O-SSM (TO-SSM) ， $K_{n}(t, s)=: K_{n}(t-s)$ ,给定 $ω(t−s):=ω(t,s)\omega(t-s):=\omega(t, s)$ 和 $p_{n}(t-s):= p_{n}(t, s)$

对于 O-SSM， $\omega)$ 和 $K$ 是彼此唯一确定的，因此我们可以通过其中之一来引用 OSSM。一个方向是显而易见的： $\omega)$ 通过 $Kn(t,s)=pn(t,s)ω(t,s)K_{n}(t, s)=p_{n}(t, s) \omega(t, s)$ 确定 $K$ 。

这个公式第一次看符号较多，论文说明较少，对这个定义补充解读一下：

定义5.1中描述的正交状态空间模型（O-SSM）是一种特殊类型的状态空间模型（SSM），其特点在于它使用了特定的基函数和测量函数来构建状态向量。

状态空间模型（SSM）：SSM是一种用于描述动态系统的数学模型，通常由状态向量和输入信号组成。在这个定义中，SSM由一对函数 $A (t)$ 和 $B (t)$ 表示，这些函数定义了系统的动态行为。

基函数 $p_{n}(t, s)$ 和测量函数 $ω(t,s)\omega(t, s)$ ：在O-SSM中，基函数 $p_{n}(t, s)$ 和测量函数 $ω(t,s)\omega(t, s)$ 是核心概念。基函数通常用于表示系统状态的不同方面，而测量函数用于加权这些状态。这些函数共同定义了系统如何响应输入信号。

函数 $K_{n}(t, s)$

最低0.47元/天解锁文章