Chapter 6 Combining Orthogonal and Structured State Space Models
Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023.
本文是MAMBA作者的博士毕业论文,为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文,由于知识水平有限,只能尽自己所能概述记录,并适当补充一些相关数学背景,欢迎探讨与批评指正。内容多,分章节更新以免凌乱
在论文第 2 章和第 3 章中,定义了结构化 SSM 模型(S4),它结合了连续、循环和卷积特性,同时计算效率非常高。然而,没有定义这些模型的具体实例来解决远程依赖等建模挑战(第 1 章)。另一方面,在第 4 章和第 5 章中,通过 HIPPO 框架定义了具有特殊数学属性的 SSM。特别是,它们解决了在线记忆问题,作为一种对远程依赖关系进行建模的方法(第 4 章),并且可以被视为将输入分解到平滑基函数正交系统上的正交 SSM(第 5 章)。然而,没有讨论如何计算这些模型。本章结合了这两个概念:展示了最重要的正交 SSM,对应于命名的 HIPPO 方法(第 5.1.1 节),都可以编写为结构化 SSM。因此,S4 模型类同时具有最佳效率(定义 3.1 和 3.2),并且可以使用 HIPPO 矩阵进行实例化,以获得额外的理论属性和功能,例如远程记忆。
6.1 节重申了使用 HIPPO 解决 SSM 计算效率问题的主要挑战,并提出了部分解决方案。
6.2节包含了作者最重要的结果:命名的HIPPO矩阵都可以完全写成第3章中的DPLR矩阵。这允许使用HIPPO方法实例化S4模型,解决了它们的缺点。
6.3 节进一步展示了最重要的 HIPPO 矩阵可以通过对角矩阵来近似的理论结果,从而允许 S4D 也可以使用 HIPPO 进行实例化,还提供了其他对角线变体。
6.1 Overview: Motivation and Partial Progress
- 结构化状态空间模型(SSMs)的有效性:结构化状态空间模型(SSMs)并非总是有效的。由于状态空间模型(SS(S)Ms)的通用性,它们可能会继承递归和卷积在处理长期依赖关系时的问题(参见第1.2.3节)。例如,作为一种递归,通过Aˉ\bar AAˉ的重复乘法可能会遭受众所周知的梯度消失问题。
- SSMs的原则性效率问题:即使是原则上设计良好的SSMs也不一定高效。HIPPO框架描述了如何在连续时间内针对某一度量ω\omegaω记忆函数,并提供了几种具体的命名家族实例(如LegS、LegT、FouT)。
6.1.1 A Resolution to Problem 1
这一节主要讨论了HIPPO算子的计算效率问题
- HIPPO算子的计算效率:尽管第5章的一般结果暗示对于任何度量ω\omegaω(确切地说,是具有对应正交多项式族的任何度量)都存在hippo(ω),从而产生一个线性时不变的状态空间模型(LTI SSM),但这些模型的效率尚不明确。论文中解决了这个问题,专注于递归模式。
- 定理6.1(非正式):记忆操作符hippo(ω)总是具有形式x′(t)=Ax(t)+Bu(t)x^{\prime}(t)= \boldsymbol{A} x(t)+\boldsymbol{B} u(t)x′(t)=Ax(t)+Bu(t),其中AAA是一个低递归宽度(low recurrence-width,LRW)状态矩阵。尽管LRW矩阵超出了这一章的讨论范围,但它们是一种结构化矩阵。
这些信息对于理解HIPPO算子在不同模式下的计算效率具有重要意义。需要注意的是,为了全面理解这些概念,可能需要结合整个文件的上下文。
6.1.2 An Attempt for Problem 2
- 推论 6.3: 对于与经典正交多项式(OPs)相对应的ω\omegaω,hippo(ω)是3-准可分离的。准可分离矩阵是一类具有额外算法属性的结构化矩阵,它们已知具有高效的(线性时间)矩阵向量乘法(MVM)。
- 定理 6.4: 对于任何k−k-k−准可分离矩阵AAA(其中kkk为常数)和任意的B、CB、CB、C,Krylov函数KL(A,B,C)\mathscr{K}_{L}(A, B, C)KL

本文讨论了结构化状态空间模型S4的扩展,结合了循环和卷积特性,并通过HIPPO框架解决了远程依赖的建模问题。章节6重点介绍了HIPPO矩阵的DPLR结构,展示如何通过HIPPO方法实例化S4模型,提高计算效率,并探讨了对角线近似和不同变体的应用。
最低0.47元/天 解锁文章
2011

被折叠的 条评论
为什么被折叠?



