【长文阅读】MAMBA作者博士论文＜MODELING SEQUENCES WITH STRUCTURED STATE SPACES＞-Chapter6 Combining Orthogonal and

结构化状态空间模型：S4与HIPPO的结合与计算效率提升

最新推荐文章于 2025-09-04 09:04:50 发布

原创

最新推荐文章于 2025-09-04 09:04:50 发布 · 2.4k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法 #深度学习 #论文阅读

本文讨论了结构化状态空间模型S4的扩展，结合了循环和卷积特性，并通过HIPPO框架解决了远程依赖的建模问题。章节6重点介绍了HIPPO矩阵的DPLR结构，展示如何通过HIPPO方法实例化S4模型，提高计算效率，并探讨了对角线近似和不同变体的应用。

Chapter 6 Combining Orthogonal and Structured State Space Models

Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023.

本文是MAMBA作者的博士毕业论文，为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文，由于知识水平有限，只能尽自己所能概述记录，并适当补充一些相关数学背景，欢迎探讨与批评指正。内容多，分章节更新以免凌乱

在论文第 2 章和第 3 章中，定义了结构化 SSM 模型（S4），它结合了连续、循环和卷积特性，同时计算效率非常高。然而，没有定义这些模型的具体实例来解决远程依赖等建模挑战（第 1 章）。另一方面，在第 4 章和第 5 章中，通过 HIPPO 框架定义了具有特殊数学属性的 SSM。特别是，它们解决了在线记忆问题，作为一种对远程依赖关系进行建模的方法（第 4 章），并且可以被视为将输入分解到平滑基函数正交系统上的正交 SSM（第 5 章）。然而，没有讨论如何计算这些模型。本章结合了这两个概念：展示了最重要的正交 SSM，对应于命名的 HIPPO 方法（第 5.1.1 节），都可以编写为结构化 SSM。因此，S4 模型类同时具有最佳效率（定义 3.1 和 3.2），并且可以使用 HIPPO 矩阵进行实例化，以获得额外的理论属性和功能，例如远程记忆。

6.1 节重申了使用 HIPPO 解决 SSM 计算效率问题的主要挑战，并提出了部分解决方案。

6.2节包含了作者最重要的结果：命名的HIPPO矩阵都可以完全写成第3章中的DPLR矩阵。这允许使用HIPPO方法实例化S4模型，解决了它们的缺点。

6.3 节进一步展示了最重要的 HIPPO 矩阵可以通过对角矩阵来近似的理论结果，从而允许 S4D 也可以使用 HIPPO 进行实例化，还提供了其他对角线变体。

6.1 Overview: Motivation and Partial Progress

结构化状态空间模型（SSMs）的有效性：结构化状态空间模型（SSMs）并非总是有效的。由于状态空间模型（SS(S)Ms）的通用性，它们可能会继承递归和卷积在处理长期依赖关系时的问题（参见第1.2.3节）。例如，作为一种递归，通过 $Aˉ\bar A$ 的重复乘法可能会遭受众所周知的梯度消失问题。
SSMs的原则性效率问题：即使是原则上设计良好的SSMs也不一定高效。HIPPO框架描述了如何在连续时间内针对某一度量 $ω\omega$ 记忆函数，并提供了几种具体的命名家族实例（如LegS、LegT、FouT）。

6.1.1 A Resolution to Problem 1

这一节主要讨论了HIPPO算子的计算效率问题

HIPPO算子的计算效率：尽管第5章的一般结果暗示对于任何度量 $ω\omega$ （确切地说，是具有对应正交多项式族的任何度量）都存在hippo(ω)，从而产生一个线性时不变的状态空间模型（LTI SSM），但这些模型的效率尚不明确。论文中解决了这个问题，专注于递归模式。
定理6.1（非正式）：记忆操作符hippo(ω)总是具有形式 $x′(t)=Ax(t)+Bu(t)x^{\prime}(t)= \boldsymbol{A} x(t)+\boldsymbol{B} u(t)$ ，其中 $A$ 是一个低递归宽度（low recurrence-width，LRW）状态矩阵。尽管LRW矩阵超出了这一章的讨论范围，但它们是一种结构化矩阵。

这些信息对于理解HIPPO算子在不同模式下的计算效率具有重要意义。需要注意的是，为了全面理解这些概念，可能需要结合整个文件的上下文。

6.1.2 An Attempt for Problem 2

推论 6.3: 对于与经典正交多项式（OPs）相对应的 $ω\omega$ ，hippo(ω)是3-准可分离的。准可分离矩阵是一类具有额外算法属性的结构化矩阵，它们已知具有高效的（线性时间）矩阵向量乘法（MVM）。
定理 6.4: 对于任何 $k -$ 准可分离矩阵 $A$ （其中 $k$ 为常数）和任意的 $B 、 C$ ，Krylov函数 $KL(A,B,C)\mathscr{K}_{L}(A, B, C)$

最低0.47元/天解锁文章