31、网络化控制系统的随机最优控制：原理、稳定性与仿真分析

于 2025-11-26 16:59:02 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：智能控制的未来之路文章标签：网络化控制系统随机最优控制自适应估计器

本文链接：https://blog.youkuaiyun.com/read5/article/details/155295598

智能控制的未来之路专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

网络化控制系统的随机最优控制：原理、稳定性与仿真分析

1. 自适应估计器的无模型在线调优

在在线估计价值函数时，可得到矩阵 $\Theta_k$，进而在无需系统矩阵知识的情况下，通过方程 10.12 推导出随机最优控制输入。假设价值函数 $V^ (z_k)$ 可表示为线性内积（LIP），根据相关理论，价值函数可表示为：
$V^ (z_k) = \phi_k^T \Theta_k \phi_k = \theta_k^T \phi_k$ (10.13)
其中，$\theta_k = vec(\Theta_k)$，$\phi_k = E[z_k^T u_k^T z_k]^T \in \mathbb{R}^{n + bm + l}$，$\phi_k$ 是由当前状态和过去控制输入组成的克罗内克积二次多项式基向量。

由于矩阵 $\Theta_k$ 可视为慢时变的，价值函数可表示为目标未知参数向量和回归函数 $\phi_k$ 的函数。同时，价值函数也能以 $\Theta_k$ 表示：
$V^*(z_k) = \phi_k^T \Theta_k \phi_k = \theta_k^T \phi_k$ (10.14)

由于控制器只能获取观测到的系统状态 $\hat{z}_k$，带有观测系统状态的价值函数可表示为：
$V^*(\hat{z}_k) = \phi_k^{eT} \Theta_k \phi_k^e = \theta_k^T \phi_k^e$ (10.15)
其中，$\phi_k^e = E[\hat{z}_k^T u_k^T]^T$，$\phi_k^e$ 是 $\phi_k^e$ 的克罗内克积二次多项式基向量。

接下来，利用贝尔曼方程推导残差误差。通常，贝尔曼方程可重写为 $V^ (z_{k + 1}) - V^ (z_k) + r(z_k, u_k) = 0$。但应用观测状态 $\hat{z} k$ 时，此关系不成立。将观测系统状态代入贝尔曼方程，残差误差为：
$V^ (\hat{z}_k) - V^ (\hat{z} {k - 1}) + r(\hat{z} {k - 1}, \hat{u} {k - 1}) = E[e_k^o]$
其中，$e_k^o$ 由观测器误差动态 $E[\tilde{z}_k^T \phi_k]$ 引起，可推导得出。

1.1 价值函数估计与误差分析

带有观测系统状态的价值函数估计可表示为：
$\hat{V}(\hat{z}_k) = \phi_k^{eT} \hat{\Theta}_k \phi_k^e = \hat{\theta}_k^T \phi_k^e$ (10.17)
其中，$\hat{\theta}_k$ 是目标参数向量 $\theta_k$ 的估计值。

将方程 10.17 和估计的系统状态代入贝尔曼方程，方程 10.9 不一定成立。为方便起见，使用延迟值，与方程 10.17 相关的残差误差可表示为：
$E[e_k^a] = \hat{V}(\hat{z} k) - \hat{V}(\hat{z} {k - 1}) + r(\hat{z} {k - 1}, \hat{u} {k - 1}) + \hat{\theta} k^T \Delta \phi_k^e$ (10.18)
其中，$\Delta \phi_k^e = \phi_k^e - \phi {k - 1}^e$ 是使用回归函数的一阶差分，$e_k^a$ 表示估计误差。

方程 10.18 的动态可表示为：
$E[e_{k + 1}^a + e_{k + 1}^o] = E[r(\hat{z} {k + 1}, \hat{u} {k + 1})] + \hat{\theta} {k + 1}^T \Delta \phi {k + 1}^e$

定义参数向量 $E[\hat{\theta} k \phi_k]$ 的更新律为：
$E[\hat{\theta} {k + 1} \phi_{k + 1}] = E[\hat{\theta} k \phi_k] + \alpha_h \Delta \phi_k^e (e {k + 1}^o + e_{k + 1}^a)^T \phi_k^e$ (10.19)
其中，$0 < \alpha_h < 1$ 是价值函数估计的调优参数。

1.2 价值函数估计误差的动态与收敛性

价值函数参数估计误差的动态可表示为：
$E[\tilde{\theta} {k + 1} \phi {k + 1}] = E[\tilde{\theta} k \phi_k] - \alpha_h \Delta \phi_k^e (e {k + 1}^o + e_{k + 1}^a)^T \phi_k^e$ (10.20)

对于初始可允许控制策略，证明了由方程 10.20 给出的价值函数估计误差与参数误差动态 $E[\tilde{\theta}_k \phi_k]$ 的收敛性。若已知系统矩阵且能实施初始可允许控制，慢时变的线性网络化控制系统（LNCS）在均值上是渐近稳定的。但带有观测系统状态的估计价值函数会导致价值函数 $V_k$ 出现估计误差，其稳定性需要研究。定理 10.2 证明了价值函数估计误差收敛，定理 10.3 展示了整体闭环系统的稳定性。

1.3 定理 10.2

给定价值函数估计器的初始参数向量 $E[\theta_0 \phi_0]$ 在集合 $\Omega$ 中有界，设 $u_{0k}$ 是统一通信协议下 LNCS 的初始可允许控制策略，观测器参数更新律由方程 10.19 给出。则存在正常数 $\alpha_h$、$\alpha_o$ 和 $\eta$，满足：
$0 < \alpha_h < \frac{2}{3} \frac{1}{(\Delta \phi_{min})^2}$，其中 $0 < \Delta \phi_{min} < \Delta \phi_k^e$，$\Delta \phi_{min}$ 是 $\Delta \phi_k^e$ 的下界；
$0 < \eta < \frac{3}{1 + 6\alpha_o + 9\alpha_o^2 + \chi_M \chi_U}$
使得统一通信协议下网络化控制系统（NCS）的价值函数估计误差在均值上有界，界为 $E[\tilde{\theta} k \phi_k] \leq B {\theta}$。

通信确认指示符 $\xi_k$ 会影响 $\varepsilon_{M}^{AE}$ 和界 $B_{\theta}$。对于具有完全确认的 TCP 下的 NCS，界趋于零或在均值上渐近稳定；对于具有间歇性确认的 TCP 下的 NCS，当均值 $\xi$ 和方差 $\sigma_{\xi}^2$ 减小时，界会增大；对于 UDP 下的 NCS，界达到最大值。在该框架下，随机最优控制信号可通过估计的 $\Theta_k$ 矩阵估计：
$\hat{u} k = -E[K_k \hat{z}_k] = -(\Theta {uu}^{-1} \Theta_{uz}) E[\hat{z}_k]$ (10.21)

2. 闭环系统稳定性

在这部分，我们将证明观测器误差、慢时变参数和价值函数估计误差动态在均值上有界。此外，统一通信协议下 NCS 的观测系统状态和估计控制输入将收敛到接近实际系统状态和最优控制信号，并保持在一定范围内。这些界限是由于不完善的确认导致的。当确认都能正确及时传输时（即统一通信协议中的情况 2），这些界限将变为零，所有信号在均值上渐近稳定，通信协议变为具有完全确认的 TCP；当确认被禁用时，这些界限将达到最大值，通信协议变为 UDP。

2.1 算法流程

以下是统一通信协议下 LNCS 的随机最优调节器的流程图：

graph TD
    A[开始算法] --> B[初始化]
    B --> C[更新自适应观测器参数]
    C --> D[更新自适应估计器参数]
    D --> E[更新控制策略]
    E --> F[更新时间间隔]
    F --> C

初始化步骤包括设置初始参数：
$k = 0$，$\hat{\theta} = 0$，$\hat{\vartheta} = 0$，$\hat{J}(z_0) = 0$，$u = u_0$，$\xi = 0$

更新自适应观测器参数：
$\hat{\vartheta} {k + 1} = \hat{\vartheta}_k + \alpha_o \gamma (\xi {k + 1} - \xi_k) \phi_k$

更新自适应估计器参数：
$\hat{\theta} {k + 1} = \hat{\theta}_k + \alpha_h \Delta \phi_k^e (e {k + 1}^o + e_{k + 1}^a)^T \phi_k^e$

更新控制策略：
$\hat{u} k = -(\Theta {uu}^{-1} \Theta_{uz}) E[\hat{z}_k]$

2.2 引理 10.1

考虑存在统一通信协议的 NCS，存在一组最优控制策略，使得以下不等式成立：
$E[A_{z_k} z_{k + 1} + B_{z_k} u_{k + 1}] \leq k_a E[z_k]$ (10.22)
其中，$0 < k_a < \frac{1}{2}$ 是常数。

2.3 定理 10.3

给定系统状态 $z_0$、观测器参数估计向量 $E[\hat{\vartheta} 0 \psi_0]$ 和价值函数参数估计向量 $E[\hat{\theta}_0 \psi_0]$ 的初始条件在 $\Omega$ 中有界，设 $u_0$ 是统一通信协议下 NCS 的任意初始可允许控制策略，满足方程 10.22 给出的界限。设观测器、价值函数估计参数分别按方程 10.5、10.19 和 10.21 进行调整。则存在定理 10.1 和 10.2 给出的正常数 $\alpha_o$、$\eta$ 以及定理 10.2 给出的 $\alpha_h$，使得统一通信协议框架下 NCS 的系统状态向量 $z_k$、观测器参数估计误差向量 $E[\tilde{\vartheta}_k \psi_k]$ 和价值函数参数估计误差向量 $E[\tilde{\theta}_k \psi_k]$ 在均值上都有界，界分别为 $E[z_k] \leq b_z$，$E[\tilde{z}_k] \leq b_e$，$E[\tilde{\vartheta}_k] \leq b {\vartheta}$，$E[\tilde{\theta} k] \leq b {\theta}$。

当确认能完美传输时，统一通信协议变为具有完全确认的 TCP，系统状态 $z_k$、观测器参数估计误差向量 $E[\tilde{\vartheta}_k \phi_k]$ 和价值函数参数估计误差向量 $E[\tilde{\theta}_k \psi_k]$ 在均值上都渐近稳定；当没有确认能正确传输时，统一通信协议变为 UDP，这些向量在均值上有界且界达到最大值。

3. 仿真结果

3.1 系统参数设置

考虑一个间歇反应器系统的连续时间动力学：
$\dot{x} =
\begin{bmatrix}
-1.38 & -0.2077 & -6.715 & -5.676 \
0.5814 & -4.29 & 0 & 0.675 \
1.067 & 4.273 & -6.65 & -5.893 \
0.048 & 4.273 & 1.343 & -2.104
\end{bmatrix}
x +
\begin{bmatrix}
146 \
1.136 \
0 \
1
\end{bmatrix}
u$
$y = x$
其中，$x \in \mathbb{R}^{4 \times 1}$，$u \in \mathbb{R}^{2 \times 1}$。

统一通信协议下 NCS 的参数设置如下：
| 参数 | 值 |
| ---- | ---- |
| 采样时间 $T_s$ | 50 ms |
| 延迟界限 $b$ | 2 |
| 随机延迟 $E(\tau_{sc})$ | 35 ms |
| 随机延迟 $E(\tau)$ | 75 ms |
| 数据包丢失概率 $\gamma$ | 0.3 |
| 数据包丢失概率 $\upsilon$ | 0.2 |
| 通信确认指示符 $\xi$ | 0.8 |
| 蒙特卡罗模拟迭代次数 | 1000 |

3.2 传统极点配置控制器在网络不完善情况下的性能

首先，考虑统一通信协议下 NCS 的网络不完善影响。图 10.3 显示，通过极点配置方法设计的标准控制输入：
$u_k =
\begin{bmatrix}
-3.78 & -1.82 \
0.50 & -4.27 \
0.28 & -0.98 \
0.91 & -6.48
\end{bmatrix}
x_k$
在通信协议导致的网络不完善情况下，无法维持系统稳定性。该控制器在已知网络不完善时能提供可接受的性能。

3.3 NCS 在具有间歇性确认的 TCP 下的性能

将提出的随机最优控制器和新型观测器设计应用于统一通信协议中的情况 2（即具有间歇性确认的 TCP）下的 NCS，处理由网络不完善和间歇性确认导致的未知系统动力学。增广状态 $z_k = [x_k u_{k - 1} u_{k - 2}]^T \in \mathbb{R}^{8 \times 1}$，$\phi_e^T = [z_k^T u_k^T] \in \mathbb{R}^{10 \times 1}$。提出算法的初始可允许策略选择为：
$u_0 =
\begin{bmatrix}
-0.87 & -0.85 & 0.1 & -1.24 & -0.03 & 0 & 0.13 & 0.01 & -1.51 & 0.09 \
2.55 & 2.47 & 0 & 0.08 & 0 & 0.52
\end{bmatrix}
E[\hat{z}_k]$

价值函数估计的回归函数按相关文献生成，价值函数估计器的设计调优率选择为 $\alpha_h = 10^{-4}$，初始参数在仿真开始时设为零。控制估计器的初始参数选择反映初始可允许控制。观测器的回归函数按第 1 章定义，设计学习率为 $\alpha_o = 10^{-3}$。仿真运行 500 个时间步，在前 100 个时间步添加探索噪声以维持 PE 条件。

图 10.4 - 10.6 评估了提出的价值函数估计器和基于观测器的最优控制在统一通信协议情况 2 下 NCS 的性能。即使存在不确定动力学和不准确的通信确认接收，提出的方法仍能使调节误差收敛到接近零。图 10.5 显示了统一通信协议下 NCS 提出方案的控制输入，图 10.6 评估了提出的观测器性能，该观测器能使观测系统状态向量快速收敛到实际状态向量。

3.4 NCS 在具有完全确认的 TCP 下的性能

将提出的随机最优控制器和新型观测器设计应用于统一通信协议中的情况 1（即具有完全确认的 TCP）下的 NCS。图 10.7 和 10.8 显示，即使 NCS 的动力学未知，提出的价值函数估计器和基于观测器的最优控制仍能使调节误差和观测误差收敛到接近零。与情况 2 相比，由于能准确接收完全确认，调节误差和观测误差能更接近零。

3.5 NCS 在无确认的 UDP 下的性能

图 10.9 和 10.10 评估了提出的价值函数估计器和基于观测器的最优控制在统一通信协议情况 3（即无确认的 UDP）下 NCS 的性能。在没有确认且 NCS 系统动力学不确定的最坏情况下，提出的方法仍能使调节和观测误差收敛到接近零。需要注意的是，与情况 1 和 2 相比，当没有收到确认时，调节和观测误差收敛较慢。

为确保观测器的稳定性，伯努利到达过程的参数（即 $\gamma$ 和 $\upsilon$）存在一个关键值域。统一通信框架中的三种情况有不同的稳定区域。图 10.11 展示了统一通信框架下提出的观测器的这些稳定区域。对于情况 1（即具有完全确认的 TCP，$\xi = 1$），稳定区域最大。

综上所述，提出的随机最优控制器在不同通信协议下的 NCS 中都能表现出较好的性能，尤其是在具有完全确认的 TCP 下能实现更优的控制效果。同时，通信确认情况对系统的稳定性和误差收敛有显著影响。

3.6 不同通信协议下性能对比总结

为了更直观地比较不同通信协议下 NCS 的性能，我们将上述仿真结果进行总结，如下表所示：
| 通信协议 | 调节误差收敛情况 | 观测误差收敛情况 | 稳定区域 | 备注 |
| ---- | ---- | ---- | ---- | ---- |
| TCP （完全确认） | 快速收敛到接近零 | 快速收敛到接近零 | 最大 | 系统状态、观测器参数估计误差和价值函数参数估计误差在均值上渐近稳定 |
| TCP （间歇性确认） | 收敛到接近零 | 收敛到接近零 | 适中 | 当均值 $\xi$ 和方差 $\sigma_{\xi}^2$ 减小时，价值函数估计误差界增大 |
| UDP （无确认） | 收敛到接近零，但较慢 | 收敛到接近零，但较慢 | 最小 | 系统状态、观测器参数估计误差和价值函数参数估计误差在均值上有界且界达到最大值 |

从这个表格中可以清晰地看到，通信协议的确认情况对 NCS 的性能有着显著的影响。完全确认的 TCP 协议能够提供最好的控制效果和稳定性，而无确认的 UDP 协议则在性能上相对较差，但即使在这种最坏情况下，提出的随机最优控制器仍然能够使系统的误差收敛到接近零。

3.7 关键参数对系统性能的影响

除了通信协议，还有一些关键参数也会对 NCS 的性能产生重要影响，下面我们来分析一下这些参数：
- 调优参数 $\alpha_h$ 和 $\alpha_o$ ：$\alpha_h$ 是价值函数估计的调优参数，$\alpha_o$ 是观测器的设计学习率。在仿真中，我们选择了 $\alpha_h = 10^{-4}$ 和 $\alpha_o = 10^{-3}$。这两个参数的选择需要在收敛速度和稳定性之间进行权衡。如果 $\alpha_h$ 过大，可能会导致估计误差不稳定；如果 $\alpha_h$ 过小，收敛速度会变慢。同样，$\alpha_o$ 也需要根据系统的具体情况进行合理选择。
- 探索噪声 ：在前 100 个时间步添加探索噪声是为了维持 PE 条件，使系统状态能够持续激励，从而让估计器能够学习到最优价值函数。探索噪声的强度和持续时间也会影响系统的性能。如果探索噪声过大，可能会导致系统不稳定；如果探索噪声过小，可能无法满足 PE 条件。

4. 总结与展望

4.1 总结

本文主要研究了统一通信协议下网络化控制系统（NCS）的随机最优控制问题。通过无模型在线调优自适应估计器，我们在无需系统矩阵知识的情况下，推导出了随机最优控制输入。证明了闭环系统的稳定性，包括观测器误差、慢时变参数和价值函数估计误差动态在均值上有界。通过仿真实验，验证了提出的随机最优控制器在不同通信协议下的性能，包括 TCP（完全确认、间歇性确认）和 UDP（无确认）。结果表明，该控制器在各种情况下都能使系统的调节误差和观测误差收敛到接近零，尤其是在具有完全确认的 TCP 协议下能够实现更优的控制效果。

4.2 展望

虽然本文提出的随机最优控制器在 NCS 中取得了较好的性能，但仍然有一些方面可以进一步研究和改进：
- 更复杂的网络环境 ：本文的仿真主要考虑了一些常见的网络因素，如数据包丢失、随机延迟和通信确认等。在实际应用中，网络环境可能更加复杂，例如存在网络攻击、多径衰落等问题。未来可以研究如何在这些更复杂的网络环境下设计更鲁棒的控制器。
- 自适应参数调整 ：本文中的调优参数 $\alpha_h$ 和 $\alpha_o$ 是在仿真前预先设定的。在实际应用中，系统的动态特性可能会发生变化，因此可以研究如何设计自适应的参数调整策略，使控制器能够根据系统的实时状态自动调整参数，以提高控制性能。
- 多智能体系统 ：随着物联网和工业 4.0 的发展，多智能体系统在 NCS 中的应用越来越广泛。未来可以研究如何将本文提出的方法扩展到多智能体系统中，实现多个智能体之间的协同控制。

总之，网络化控制系统的随机最优控制是一个具有挑战性和广阔应用前景的研究领域，未来还有很多工作值得我们去探索和深入研究。

4.3 整体流程回顾

为了让大家对整个随机最优控制的流程有更清晰的认识，下面给出一个完整的 mermaid 流程图：

graph LR
    A[开始] --> B[设置系统参数和初始条件]
    B --> C[选择通信协议]
    C --> D{是否为 TCP 完全确认?}
    D -- 是 --> E[执行 TCP 完全确认控制流程]
    D -- 否 --> F{是否为 TCP 间歇性确认?}
    F -- 是 --> G[执行 TCP 间歇性确认控制流程]
    F -- 否 --> H[执行 UDP 无确认控制流程]
    E --> I[更新自适应观测器参数]
    G --> I
    H --> I
    I --> J[更新自适应估计器参数]
    J --> K[更新控制策略]
    K --> L[计算调节误差和观测误差]
    L --> M{误差是否收敛到接近零?}
    M -- 是 --> N[结束]
    M -- 否 --> I

这个流程图展示了从开始设置系统参数到最终判断误差是否收敛的整个过程，涵盖了不同通信协议下的控制流程。通过这个流程图，我们可以更清晰地看到各个步骤之间的关系和整个控制算法的执行逻辑。