17、随机非线性动力系统学习的深入探讨

火锅底料102

于 2025-11-07 13:15:34 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏：卡尔曼滤波与神经网络文章标签：随机非线性动力系统 EM算法扩展卡尔曼平滑

本文链接：https://blog.youkuaiyun.com/spark7igniter/article/details/154627404

卡尔曼滤波与神经网络专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

随机非线性动力系统学习的深入探讨

1. 模型表达能力的限制

在对随机非线性动力系统进行建模时，函数 (f) 和 (g) 的选择会对模型的表达能力产生重要影响。存在一些 (f) 和 (g) 的变换，会使得输入 - 输出行为相同，这使得检测恢复的模型是否忠实于实际系统变得困难，因为估计状态和实际状态可能看似无关。

并非所有系统都能通过假设 (f) 为线性、(g) 为非线性，或者 (f) 为非线性、(g) 为线性来建模。例如，当观测值 (y_k) 和 (y_{k + n}) 统计独立，且每个观测值位于高维空间中的低维弯曲流形上时，建模需要非线性的 (g)（如非线性因子分析），且 (f = 0)。所以，将 (f) 或 (g) 设为线性会限制模型的表达能力。

在噪声协方差方面，假设观测噪声协方差 (R) 为对角矩阵会限制模型的表达能力。当状态空间维度小而观测向量维度大时，全协方差 (R) 能捕捉单个时间步观测值之间的所有相关性，而对角 (R) 模型则不能。不过，对于非线性动力系统，高斯噪声假设并不像最初看起来那么严格，因为非线性可以将高斯噪声转化为非高斯噪声。

使用径向基函数（RBF）网络也会限制模型的表达能力，尤其是当 RBF 的均值和中心固定时。虽然可以借助通用逼近定理声称原则上能对任何非线性动力系统建模，但考虑到噪声假设以及实际中通常只使用有限且数量较少的 RBF，这种说法可能会产生误导。

2. 嵌入式流的理解

对于所研究的动力模型，有两种理解方式：
- 非线性马尔可夫过程嵌入流形 ：将其看作非线性马尔可夫过程 (x_k) 嵌入（或可能投影）到流形 (y_k) 中。函数 (f) 控制随机过程的演化，函数 (g) 指定非线性嵌入（或投影）操作。
- 非线性潜在变量模型 ：可视为潜在变量（因子）随时间演化的非线性潜在变量模型（如因子分析，可能还有外部输入）。非线性因子分析模型由 (g) 表示，潜在变量的时间演化由 (f) 表示。

当状态空间维度低于观测空间维度且观测噪声为加性时，有一个有用的几何直觉。此时，能观察到嵌入流形内的流动。观测函数 (g) 指定流形的结构（形状），动力学 (f) 指定流形内的流动。基于此直觉，学习问题似乎可分为两个阶段：首先通过对观测输出集合进行某种密度建模（忽略时间顺序）找到流形；然后将观测值投影到流形中，进行从一个时间步到下一个时间步的非线性回归来找到流动（动力学）。这种直觉部分正确，且为许多实用有效的初始化方案提供了基础。但关键在于，这两个学习问题相互作用，使问题变得更容易。了解动力学信息有助于学习流形形状，反之亦然。

2.1 特殊情况分析

2.1.1 线性输出函数与非线性动力学

当输出函数 (g) 为线性、动力学 (f) 为非线性时，观测序列在观测空间的线性子空间中形成非线性流动。由于流形形状已知为超平面，即使观测噪声水平高，流形估计也相对容易，只需找到其方向和输出噪声特征。使用因子分析等算法对观测值进行时不变分析是初始化超平面和噪声估计的好方法。不过，在学习过程中，可能需要倾斜超平面以使动力学更匹配，或者修改动力学以使超平面模型更好。

实际上，这种设置比最初看起来更具表达能力。对于“可逆”的非线性输出函数 (g(x) = C\tilde{g}(x))（(\tilde{g}) 可逆，(C) 为非方阵），通过变换到新的状态变量 (\tilde{x} = \tilde{g}(x))，可以得到一个等效模型，其中输出过程为纯线性，动力学噪声可能为非加性：
(\tilde{x}_{k + 1} = \tilde{f}(\tilde{x}_k, w_k) = \tilde{g}(f(\tilde{g}^{-1}(\tilde{x})) + w_k))
(y_k = C\tilde{x}_k + v_k = g(x_k) + v_k)

2.1.2 非线性输出函数与线性动力学

当输出函数 (g) 为非线性、动力学 (f) 为线性时，观测序列在非线性流形中形成矩阵（线性）流动：
(x_{k + 1} = Ax_k + w_k)
(y_k = g(x_k) + v_k)

此时流形学习更困难，因为需要在噪声存在的情况下估计观测空间中的薄弯曲子空间。但一旦大致学习到这个流形，将观测值投影到其中并学习线性动力学。当投影动力学看起来非线性时，就知道应弯曲流形以使动力学更线性。所以，输出的形状（忽略时间）和动力学的线性性都为学习流形提供了线索。

3. 稳定性分析

稳定性是动力系统研究的关键问题，这里需要考虑两个层面的稳定性：学习过程的稳定性和学习到的非线性动力系统的稳定性。

3.1 学习过程的稳定性

EM 算法的每一步都保证增加对数似然直至收敛，因此它有一个内置的 Lyapunov 函数用于稳定学习。然而，算法 E 步中使用的扩展卡尔曼平滑是对精确 E 步的近似，所以无法保证学习的稳定性。虽然学习稳定性问题很少出现，但这取决于 EKS 近似的质量以及真实系统动力学与稳定边界的接近程度。与 EKS 近似不同，某些变分近似可以将难以处理的 Lyapunov 函数转化为可处理的函数，从而保持学习的稳定性，但如何将这些变分近似应用于非线性动力学尚不清楚。

3.2 学习到的系统的稳定性

对于学习到的非线性动力系统，可以利用线性系统理论进行稳定性分析。对于离散时间线性动力系统，如果矩阵 (A) 的所有特征值都在单位圆内，则系统全局稳定。RBF 网络 (f) 的非线性动力学可分解为线性分量 (A) 和非线性分量 (\sum_{i} h_i r_i(x))。为使系统全局稳定，(A) 需满足线性系统的特征值准则。此外，如果 (f) 和 (g) 的 RBF 系数范数有界（即 (\max_i |h_i| < \epsilon_h)），且 RBF 有界（(\min_i \det(S_i) > s_{min} > 0)，(\max_{ij} |c_i - c_j| < \epsilon_c)），则非线性系统在以下意义上是稳定的：动力学的无噪声非线性分量会使状态始终保持在以 (\epsilon_c) 为中心、半径为 (k) 的球内。所以，如果线性分量稳定，对于任何有界输入序列，无噪声系统的输出序列也将有界。

对于在线 EM 学习算法，隐藏状态动力学和参数重新估计动力学相互作用，稳定性分析将极具挑战性。由于批量 EKS - EM 算法没有稳定性保证，所以简单形式的在线算法不太可能被证明是稳定的。

以下是稳定性分析的总结表格：
|稳定性层面|情况说明|
| ---- | ---- |
|学习过程稳定性|EM 算法有内置 Lyapunov 函数，但 EKS 近似影响稳定性，变分近似可能解决但应用于非线性动力学待研究|
|学习到的系统稳定性|线性分量 (A) 特征值在单位圆内且 RBF 系数和函数有界时，系统稳定，在线算法稳定性分析困难|

下面是学习过程和系统稳定性的 mermaid 流程图：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;

    A([开始]):::startend --> B{学习过程稳定性?}:::decision
    B -->|EKS 近似| C(可能不稳定):::process
    B -->|变分近似| D(可能稳定):::process
    C --> E{系统稳定性?}:::decision
    D --> E
    E -->|A 特征值和 RBF 条件满足| F(稳定):::process
    E -->|不满足| G(不稳定):::process
    F --> H([结束]):::startend
    G --> H

4. Takens 定理与隐藏状态

长期以来，人们知道对于线性系统，涉及隐藏变量的状态空间公式与时间序列的直接向量自回归模型是等价的。1980 年，Takens 证明了一个显著的定理：对于几乎任何具有 (d) 维状态空间的确定性非线性动力系统，通过观察其任何一个输出的 (2d + 1) 个时间滞后，可以有效地重建状态。特别是，如果存在真实状态，这样的滞后向量将是真实状态的平滑嵌入（微分同胚）。这一概念为学习非线性动力系统的非线性回归方法提供了依据，即怀疑系统是非线性且具有 (d) 个状态维度时，可以不构建状态空间模型，而是直接在观测值上构建自回归（AR）模型，该模型将先前输出与当前输出非线性关联。

然而，这种观点在许多现实的高维和有噪声的场景中并不适用。例如，视频帧中随风飘动的气球像素是前一视频帧像素的（高度非线性）函数，但从建模角度构建视频图像的 AR 模型是荒谬的，因为这需要与像素数量平方量级相当的参数。此外，与 Takens 定理的无噪声情况不同，当动力学有噪声时，观测值的最优预测必须依赖于过去观测的整个历史，任何对历史的截断都会丢弃关于未观测状态的潜在有价值信息。而非线性动力系统的状态空间公式可以克服非线性自回归模型的这些局限性，它允许对动力学进行紧凑表示，并能随时间整合不确定信息，但代价是需要对隐藏状态进行推断。

以下是线性系统和非线性系统隐藏状态与自回归模型关系的对比表格：
|系统类型|隐藏状态与自回归模型关系|
| ---- | ---- |
|线性系统|可通过 Cayley - Hamilton 定理消除隐藏状态得到等价向量自回归模型，有明确转换构造方法|
|非线性系统|Takens 定理表明可通过观测消除隐藏状态，但无明确转换方法，现实场景中状态空间公式更有优势|

5. 参数与隐藏状态的处理方式

EM 算法基于的最大似然框架区分了参数和隐藏变量，它试图对隐藏变量进行积分，以最大化作为参数函数的似然。这导致了两步方法，即在 E 步计算隐藏变量的充分统计量，在 M 步优化参数。相比之下，学习非线性动力状态空间模型的完全贝叶斯方法会将隐藏变量和参数都视为未知，并尝试计算或近似它们的联合后验分布，实际上是对两者进行积分。

5.1 与传统方法的比较

这里重点介绍两种传统方法：联合 EKF 方法和双 EKF 方法。
- 联合 EKF 方法 ：构建一个包含原始隐藏状态空间和参数的扩展隐藏状态空间。由于参数和隐藏状态相互作用，即使对于线性动力系统，这种方法也会导致扩展隐藏状态上的非线性动力学。在参数和状态上初始化高斯先验分布后，使用扩展卡尔曼滤波器根据观测值递归更新状态和参数的联合分布 (p(X, \theta|Y))。该方法的优点是可以对参数的不确定性以及参数和隐藏变量之间的相关性进行建模，它对称地处理参数和状态变量，可视为迭代实现递归贝叶斯规则计算的高斯近似。通过为参数赋予（如随机游走）动力学，可以轻松引入非平稳性。然而，该方法存在稳定性问题，这也是提出双 EKF 方法的原因。
- 双 EKF 方法 ：两个相互作用但不同的扩展卡尔曼滤波器同时运行。一个根据参数估计和观测值计算状态后验的高斯近似 (p(X|\hat{\theta} {old}, Y))，另一个根据估计的状态计算参数后验的高斯近似 (p(\theta|\hat{X} {old}, Y))。两个 EKF 通过将各自的估计（即后验均值 (\hat{X}) 和 (\hat{\theta})）提供给对方来相互作用。可以将双 EKF 视为在 (p(X, \theta|Y)) 中进行近似坐标上升，通过迭代最大化 (p(X|\hat{\theta} {old}, Y)) 和 (p(\theta|\hat{X} {old}, Y))，假设每个条件分布都是高斯分布。由于参数和隐藏变量仅通过各自的均值相互作用，该过程具有物理和神经网络中平均场方法的特点，可能会出现过度自信问题，即参数估计不考虑状态的不确定性，导致参数协方差过窄，状态也是如此。

对于大型系统，联合和双 EKF 方法都存在参数协方差矩阵与参数数量呈二次关系的问题，联合 EKF 更为明显，因为它考虑了连接的状态空间。此外，两种方法都依赖于参数分布的高斯近似，这有时会有问题，例如在假设噪声协方差矩阵的参数为高斯分布时，难以保持其正定性。

以下是不同方法处理参数和隐藏状态的对比列表：
1. EM 算法 ：区分参数和隐藏变量，E 步计算隐藏变量充分统计量，M 步优化参数。
2. 完全贝叶斯方法 ：将参数和隐藏变量视为未知，计算或近似联合后验分布。
3. 联合 EKF 方法 ：构建扩展隐藏状态空间，对称处理参数和状态，可建模不确定性和相关性，但有稳定性问题。
4. 双 EKF 方法 ：两个 EKF 同时运行，相互提供估计，可能存在过度自信问题，依赖高斯近似。

下面是不同方法处理参数和隐藏状态的 mermaid 流程图：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;

    A([开始]):::startend --> B{选择方法}:::decision
    B -->|EM 算法| C(E 步计算统计量, M 步优化参数):::process
    B -->|完全贝叶斯方法| D(计算联合后验分布):::process
    B -->|联合 EKF 方法| E(构建扩展状态空间, 递归更新联合分布):::process
    B -->|双 EKF 方法| F(两个 EKF 相互作用更新):::process
    C --> G([结束]):::startend
    D --> G
    E --> G
    F --> G