长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter4 HIPPO

本文围绕HIPPO框架展开,该框架用于处理序列数据中的记忆问题。它通过在线函数近似,利用正交多项式存储最佳系数。文章介绍了HIPPO框架的技术细节、从连续到离散时间的转换,还提出了LegS记忆机制。实验验证了HIPPO框架在处理长依赖、计算效率和时标鲁棒性方面的优势。

Chapter 4 HIPPO: Continuous Memory with Optimal Polynomial Projections

Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023.

本文是MAMBA作者的博士毕业论文,为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文,由于知识水平有限,只能尽自己所能概述记录,并适当补充一些相关数学背景,欢迎探讨与批评指正。内容多,分章节更新以免凌乱。

本章主要讨论了一种名为HIPPO(High-order Polynomial Projection Operators)的框架,用于处理序列数据中的记忆问题。HIPPO通过在线函数近似来处理记忆,将函数的最佳系数存储为基函数的形式。这种方法特别强调正交多项式的使用,因为它们的最佳系数可以闭式表示。此外,该框架利用不同的度量来生成适应不同时间尺度的序列数据处理方法,并提供理论保证。文章还展示了HIPPO框架在处理长期依赖性、计算效率、梯度流动和近似误差方面的理论和实验优势。总的来说,这部分内容深入探讨了记忆表示问题,并提出了一种新的方法来有效处理复杂的时间序列数据。

备注 :为了强调与 SSM 的独立性,本章的材料使用不同的符号:使用 f(t)f(t)f(t) 表示输入函数, 代替 u(t)u(t)u(t) 表示输入。使用 c(t)c(t)c(t)表示“多项式系数”的状态,这是最初发表的 HIPPO 论文中的注释。

4.1 Introduction

本节讨论了顺序数据建模和学习的基本问题,这些问题包括语言建模、语音识别、视频处理和强化学习。核心是如何建立长期复杂时间依赖的模型,即如何存储和整合过去时间步骤的信息。传统方法是模拟随时间演变的状态。长距离依赖建模的核心问题是如何通过有限的memory来尽可能记住之前所有的历史信息。当前的主流序列建模模型(即Transformer和RNN) 存在着普遍的遗忘问题

  • fixed-size context windows: Transformer的window size通常是有限的,一般来说quadratic的attention最多建模到大约10k的token就到计算极限了
  • vanishing gradient: RNN通过hidden state来存储历史信息,理论上能记住之前所有内容,但实际上的effective memory大概是<1k个token的level,可能的原因是gradient vanishing

4.2 High-order Polynomial Projection Operators

这部分内容其实就是NIPS’2020论文:HiPPO: Recurrent Memory with Optimal Polynomial Projections的一部分。

第4.2节“高阶多项式投影算子”(High-order Polynomial Projection Operators)中,介绍了在线函数近似问题的概念和HIPPO框架的总体思路。这一部分详细讨论了如何使用多项式基函数来近似一个函数,并在不同时间点维护这个近似的最优系数。文档描述了HIPPO框架的技术细节,包括如何选择适当的基函数集合和度量,以及如何使用这些基函数来优化近似过程。此外,还探讨了将这种连续时间的思想转化为实际应用中的离散时间版本的方法。最后,展示了如何将HIPPO框架应用于RNN中的记忆机制,提供了关于不同度量和优化策略的深入分析,并讨论了这种方法的理论保证和实际应用效果。

4.2.1 HIPPO Problem Setup

为了了解迄今为止所看到的输入并做出未来的预测,由于函数空间极其庞大,历史无法完美记忆,必须进行压缩;论文提出将其投影到有界维子空间的一般方法。因此,目标是(在线)维护历史的压缩表示。为了充分说明这个问题,需要两个要素:量化近似的方法和合适的子空间。

问题

考虑一个一维函数,我们能否用一个固定大小的representation c(t)∈RNc(t) \in \mathbb{R}^{N}c(t)RN 来最优拟合 fff[0,t][0, t][0,t](后面记作 f≤tf_{\leq t}ft) 的曲线? 并且随着ttt的增加,例如从 t1t_1t1t2t_2t2 ,我们可以在线的根据 c(t1)c\left(t_{1}\right)c(t1)c(t2)c\left(t_{2}\right)c(t2) 来拟合 f≤t2f_{\leq t_{2}}ft2

如何判断拟合的质量

我们需要一个测度(measure)来判定拟合出来的连续函数和原来的连续函数的相似度 ( in other words, how much we care about every time in the past,对不同的time step xxx有着一个权重 μ(x)\mu(x)μ(x) )。 每个measure都需要在函数空间里定义一个距离, 即定义函数的内积:⟨f,g⟩μ=∫0∞f(x)g(x)dμ(x)\langle f, g\rangle_{\mu}=\int_{0}^{\infty} f(x) g(x) \mathrm{d} \mu(x)f,gμ=0f(x)g(x)dμ(x)

如何用N维向量来编码 f≤tf_{\leq t}ft

假设一组多项式正交基 G={ gn}n<N\mathcal{G}=\left\{g_{n}\right\}_{n<N}G={ gn}n<N 满足⟨gi,gj⟩μ=0\left\langle g_{i}, g_{j}\right\rangle_{\mu}=0gi,gjμ=0(注意到正交基是由测度μ\muμ决定的,不同的 μ\muμ 对应

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值