State space representation 通解证明

MaxeeoveCR

已于 2024-12-31 18:36:40 修改

阅读量590

点赞数 8

文章标签：深度学习

于 2024-12-30 16:11:37 首次发布

本文链接：https://blog.youkuaiyun.com/MaxeeoveCR/article/details/144828541

版权

最近在看Mamba相关资料, 很多博客对状态空间表达(State space representation)的通解一笔带过, 这里做下推导

术语表
SSM: State Space Model
LTI: Linear Time-Invariant

1. State Space Model

a. SSM equation

表达形式
$\left\{ \begin{array}{lr} \bm{F'(t) = AF(t) + BG(t),} \\ \bm{H(t) = CF(t)} \end{array} \right.$

状态空间以时间 $t$ 为变量
$A$ – 状态矩阵(已知)
$B$ – 输入矩阵(已知)
$C$ – 输出矩阵(已知)
$G (t)$ – 输入向量(已知)
$F (t)$ – 状态向量(未知)
$H (t)$ – 输出向量

现求解 $F (t)$ 和 $H (t)$

首先变换
$F^{'} (t) - A F (t) = BG (t)$
左右两边同乘 $e^{-At}$
$e^{-At}F'(t) - Ae^{-At}F(t) = e^{-At}BG(t)$
左侧可以看做 $e^{-At}F(t)$ 的一阶导数,即
$\frac{d}{dt}[e^{-At}F(t)]=e^{-At}BG(t)$
对左右两边同时求积分, 其中变量 $\tau$ 从 $t$ 变化到 $t_0$
$e^{-At}F(t)-e^{-At_0}F(t_0)=\int^{t}_{t_0}e^{-A\tau}BG(\tau)d\tau$
简化到
$e^{-At}F(t) = e^{-At_0}F(t_0) + \int^{t}_{t_0}e^{-A\tau}BG(\tau)d\tau$
$\begin{align*} F(t) & =e^{A(t-t_0)}F(t_0)+e^{At}\int^{t}_{t_0}e^{-A\tau}BG(\tau)d\tau \\ & =e^{A(t-t_0)}F(t_0)+\int^{t}_{t_0}e^{A(t-\tau)}BG(\tau)d\tau \end{align*}$

终得
$\begin{equation} \begin{align*} \left\{ \begin{array}{ll} F(t) &= e^{A(t-t_0)}F(t_0)+\int^{t}_{t_0}e^{A(t-\tau)}BG(\tau)d\tau \\ H(t) &= CF(t) \end{array} \right. \end{align*} \end{equation}$
证毕

与Convolution的关联
我们回顾下卷积的表达形式, 例如存在一个卷积核 $k (s)$ 对函数 $I (t)$ 进行卷积, 卷积后的函数为
$\ast I(t) = \int_{t0}^{t1}k(t-s)I(t)ds$
离散化后的形式
$Conv(t)=\sum_{t_0}^{t_1}k(t-s)I(t)$
假如 $t_0=0$ , $t_1=2$ , 则 $t=0\to n$ 时, 离散化实例为
$\begin{align*} Conv(0) & = k(0)I(0)\\ Conv(1) & = k(1)I(1) + k(0)I(1)\\ Conv(2) & = k(2)I(2) + k(1)I(2) + k(0)I(2)\\ Conv(3) & = k(3)I(3) + k(2)I(3) + k(1)I(3)\\ ...\\ Conv(n) & = k(n)I(n) + k(n-1)I(n) + k(n-2)I(n) \end{align*}$
我们再来看下state space equation $(1)$ 的第二项
$\int^{t}_{t_0}e^{A(t-\tau)}BG(\tau)d\tau$
本质上也是一个卷积, 卷积核为 $BG(\tau)$ , 输入函数为 $e^{At}$

b. Discretization

Mamba原论文中提到, 为了实际应用上述的SSM equation, 必须对原方程进行离散化表达, 即通过将连续的时间轴拆分成K个离散区间, 这时就需要使用 Zero-Order Hold(ZOH) 方法, 即假设函数值在 $t_{k-1}, t_k]$ 之间为常量.
详细论证推理可以查看 ZOH原论文 这里不作赘述
经过ZOH离散化后的SSM表达形式
$\left\{ \begin{array}{ll} \bm{F(t) = \bar{A}F(t-1) + \bar{B}G(t),} \\ \bm{H(t) = CF(t)} \end{array} \right.$
其中
$\bar{A}=e^{A\Delta(t)}, \bar{B}=(A\Delta(t))^{-1}(\bar{A}-I)\cdot B\Delta(t)$

与RNN的关联
我们回顾下RNN的表达形式
$\left\{ \begin{array}{ll} h_{t} = \sigma(Uh_{t-1} + Wx_{t} + b_h) \\ y_t = softmax(Vh_{t} + b_y) \end{array} \right.$
$\sigma$ – 激活函数
$x_{t}$ – 输入向量
$h_{t}$ – 隐状态 (hidden state)
$W$ – 输入权重
$U$ – 隐状态权重
$V$ – 输出权重
$b_h$ 和 $b_y$ – 偏置
可以看到, SSM中的 $F (t)$ 可以看作是在一种没有激活函数的特殊形式的隐状态表达

然后, 我们对离散化SSM进行逐步计算
$\begin{align*} y_0 & = C\bar{B}x_{0} \\ y_1 & = C\bar{A}^1\bar{B}x_0 + C\bar{B}x_1\\ y_2 & = C\bar{A}^2\bar{B}x_0 + C\bar{A}^1\bar{B}x_1 + C\bar{B}x_2\\ ...\\ y_k & = C\bar{A}^k\bar{B}x_0 + C\bar{A}^{k-1}\bar{B}x_1 + ... + C\bar{A}^1x_{k-1} + C\bar{B}x_k \end{align*}$
然后上面一系列算子归纳为 $\bar{K}=(C\bar{B}, ..., C\bar{A}^k\bar{B},...)$ , 这种循环计算可以转化为到一种卷积的形式
$\ast \bar{K}$
其中 $x=[x_0, x_1, ...]$ $y=[y_0, y_1, ...]$

c. SSM 特点

传统SSM是 Time-invariant，即 $\bar{A}$ 、 $\bar{B}$ 、 $C$ 和 $\Delta$ 跟模型输入 $x$ 无关。这也限制了模型上下文(context)的感知能力，导致传统SSM在Selective copying任务中表现不佳

2. Mamba

SSM在文本和信息密集型数据的任务中表现欠佳，为了赋予SSM类似Transformer的建模能力，Albert Gu and Tri Dao 提出了3种新的方法
a) Structure State Space(S3): 比如 High-order Polynomial Projection Operator(HiPPO)-based 记忆初始化
b) Selective Mechanism
c) Hardware-aware Computation

待续…

引用

https://www.google.com/url?sa=t&source=web&rct=j&opi=89978449&url=https://orb.binghamton.edu/cgi/viewcontent.cgi%3Ffilename%3D7%26article%3D1002%26context%3Delectrical_fac%26type%3Dadditional&ved=2ahUKEwjX3I6k-M6KAxW_D0QIHTw3LJ04HhAWegQIDBAB&usg=AOvVaw1c83HJ0pZHBe9ow-lVrwY-
https://zh.wikipedia.org/wiki/%E7%8A%B6%E6%80%81%E7%A9%BA%E9%97%B4