26、非线性二人零和博弈与无线联网控制系统的优化设计

非线性博弈与WNCS随机优化

于 2025-11-21 16:46:46 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：智能控制的未来之路文章标签：非线性二人零和博弈无线联网控制系统随机最优控制

本文链接：https://blog.youkuaiyun.com/read5/article/details/155295578

智能控制的未来之路专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

非线性二人零和博弈与无线联网控制系统的优化设计

1. 非线性二人零和博弈的最优设计

在非线性二人零和博弈的最优设计中，存在一系列条件和关系。当满足(0 < lo < 1)，(0 < \alpha < \min(\zeta_I / \zeta_M, \zeta_0))，(0 < \alpha_V < (2 - \chi) / (\chi + 5))，(0 < \alpha_u < 1/3)，(0 < \alpha_d < 1/3)时，有以下不等式成立：
- (0 < [((1 - \alpha_u\vartheta)/ (1 + \alpha_u\vartheta))] {\min} < 1/3)
- (0 < [((1 - \alpha_d\psi)/ (1 + \alpha_d\psi))] {\min} < 1/3)
- (0 < [1 - 2\alpha_V(2 - \chi - (\chi + 5))] < 1)
- (0 < [1 - \alpha_V(2 - \chi)] < 1)

同时，(\varpi)满足(0 < \varpi < 1)。随着(kT_s)的增加，(\varpi^k)会减小。由于所有初始边界(B_{z,0})，(B_{eI,0})，(B_{WI,0})，(B_{WV,0})，(B_{Wu,0})，(B_{Wd,0})都是正常数，闭环神经网络控制系统（NNCS）二人零和博弈的初始条件(B_{CL,0})也将是正常数。因此，当时间(kT_s)增加时，边界(B_{z,k})，(B_{eI,k})，(B_{WI,k})，(B_{WV,k})，(B_{Wu,k})，(B_{Wd,k})会减小。

当最终时间(NT_s)增加时，所有信号不仅在均值上有界，而且所有边界都会随时间减小。当时间趋于无穷大（(k \to \infty)）时，NNCS二人零和博弈系统的状态、识别误差以及三个神经网络的权重估计误差将减小到接近最小边界，所提出的有限时域随机最优控制和干扰设计将接近无限时域随机最优控制和干扰策略。

2. 无线联网控制系统（WNCS）概述

无线联网控制系统（WNCS）是一种新型的分布式系统，与传统的专用控制系统不同，它利用无线网络进行数据传输。实际应用包括智能电网、网络制造、水分配和交通等领域。在WNCS中，无线通信数据包携带来自不同物理系统（或工厂）和远程控制器的传感数据和控制命令。

WNCS虽然具有减少系统布线、便于系统诊断和维护以及提高灵活性等优点，但共享无线网络及其协议带来的不确定性给无线网络协议和控制器设计带来了许多挑战。无线网络的不可靠性，如路径损耗和衰落等问题，使得线性时不变系统可能变为不确定和随机系统，若不设计适当的控制器，系统可能会不稳定。

控制设计面临的问题主要包括无线网络延迟和数据包丢失，它们分别取决于无线通信信道质量和网络协议设计。目前的研究大多假设无线网络延迟和数据包丢失为常数或随机，忽略了无线网络组件的实际行为。同时，现有的无线网络协议设计也忽略了控制系统的实时性，不适合实时控制应用。因此，需要一种真正的跨层WNCS协同设计，以优化无线网络和受控系统的性能。

2.1 WNCS的基本结构

WNCS由多个用户组成，每个用户是一个控制器 - 工厂对（或系统），共享一个公共无线网络。每个WNCS对包含五个主要组件：
1. 待控制的实时物理系统或工厂。
2. 测量工厂系统输出的传感器。
3. 生成命令以维持工厂期望性能的控制器。
4. 促进工厂与控制器之间通信的无线网络。
5. 根据控制器命令改变工厂状态的执行器。

其中，(\tau_{sc}(t))表示传感器与控制器之间的无线网络延迟，(\tau_{ca}(t))表示控制器与执行器之间的无线延迟，(\gamma(t))是数据包丢失指示器。

2.2 WNCS协同设计

2.2.1 协同设计概述

在算法中，控制设计和调度协议应用于所有共享无线网络的WNCS对。每个WNCS对在当前分布式调度设计导致的无线缺陷（如无线网络延迟和数据包丢失）下调整其随机最优控制器，基于调整后的控制设计估计其随机价值函数，并将该信息（即价值函数）传输到链路层。链路层根据链路层的吞吐量和从应用层（即受控工厂）接收到的随机价值函数值来调整分布式调度方案。跨层WNCS协同设计框架如下：

graph LR
    A[应用层：受控工厂] -->|传输信息（如价值函数）| B[链路层]
    B -->|跨层设计调度方法| A
    B -->|基于链路层吞吐量和价值函数调整调度| B1[分布式调度方案]
    A -->|在无线缺陷下调整控制器| A1[随机最优控制器]
    A1 -->|估计随机价值函数| A

2.2.2 工厂模型

假设每个WNCS对是一个线性时不变连续时间系统：
(\dot{x}_l(t) = A_l x_l(t) + B_l u_l(t))，(l = 1, 2, \cdots, N)
其中，(A_l)和(B_l)是第(l)个WNCS对的系统动态，(T_s)是采样间隔。对于随机最优控制设计，每个WNCS对的无线网络延迟必须有界，即(\tau_l \leq dT_s)，(l = 1, 2, \cdots, N)，这需要由跨层分布式调度协议来保证。

考虑无线网络延迟和数据包丢失，第(l)个WNCS对的动态可以表示为：
(x_{k + 1}^l = A_s^l x_k^l + B_k^l u_k^l + B_{k - 1}^l u_{k - 1}^{la} + \cdots + B_{k - d}^l u_{k - d}^{la})
其中，(u_{k}^{la})是第(l)个WNCS执行器在时间(kT_s)接收到的实际控制输入，(u_{k}^l)是第(l)个WNCS控制器在时间(kT_s)计算的控制输入，随机变量(\gamma_k^l)模拟第(l)个WNCS在时间(kT_s)的数据包丢失，遵循伯努利分布(P(\gamma_k^l = \gamma_l) = \gamma_l)。

通过定义第(l)个WNCS对在时间(kT_s)的增广状态(z_k^l = [x_k^l, u_{k - 1}^l, \cdots, u_{k - d}^l]^T)，工厂动态可以重写为：
(z_{k + 1}^l = A_{zk}^l z_k^l + B_{zk}^l u_k^l)
其中，时变增广系统矩阵(A_{zk}^l)和(B_{zk}^l)由无线网络延迟和数据包丢失决定。

这种系统表示存在两个主要挑战：一是在实际WNCS中，由于无线缺陷事先未知，系统表示是不确定的，需要在不知道系统动态的情况下设计随机最优控制；二是随机最优控制基于无线缺陷的约束进行设计，但这些无线缺陷取决于网络调度方案，因此需要设计一个最优的分布式调度协议，既能优化无线网络性能，又能满足不同WNCS对的网络缺陷约束。

2.2.3 随机最优控制设计

为了解决由于无线缺陷导致的不确定工厂动态问题，提出了一种新颖的随机最优控制方案。以第(l)个WNCS对为例，基于最优控制理论，其随机价值函数可以定义为：
(V_k^l = E_{\tau, \gamma}{z_k^{lT} P_k^l z_k^l})
其中，(P_k^l \geq 0)是第(l)个WNCS对的SRE的解，(E_{\tau, \gamma}{\cdot})是期望算子。

随机最优控制可以通过最小化价值函数来求解，即(u_k^{l*} = \arg\min_{u_k^l} V_k^l)。价值函数可以进一步表示为：
(V_k^l = E_{\tau, \gamma}{[(z_k^l)^T, (u_k^l)^T] H_k^l [(z_k^l)^T, (u_k^l)^T]^T})
其中，(H_k^l)是一个矩阵，与系统动态和随机变量有关。

根据最优控制理论，第(l)个WNCS对的最优控制可以表示为：
(E_{\tau, \gamma}[u_k^{l*}] = - [R_z^l + E_{\tau, \gamma}[B_{zk}^{lT} P_{k + 1}^l B_{zk}^l]]^{-1} E_{\tau, \gamma}[B_{zk}^{lT} P_{k + 1}^l A_{zk}^l] z_k^l)

由于系统动态未知，无法直接求解(H_k^l)矩阵。因此，采用自适应估计随机价值函数(H_k^l)矩阵的方法，以获得确定性等价最优控制。

价值函数估计误差(e_{hk}^l)可以定义为：
(\hat{V} k^l - V_k^l + z_k^{lT} S_z^l z_k^l + u_k^{lT} R_z^l u_k^l = e {hk}^l)
其中，(\hat{V}_k^l)是第(l)个WNCS对在时间(kT_s)的估计随机价值函数，(S_z^l)和(R_z^l)分别是第(l)个WNCS对的正定矩阵和半正定矩阵。

价值函数参数向量的更新律为：
(E_{\tau, \gamma}[\hat{h} {k + 1}^l] = E {\tau, \gamma}[\hat{h} k^l] + \alpha_h^l \chi_k^l e {hk}^l - \Delta\chi_k^l (\Delta\chi_k^l)^T E_{\tau, \gamma}[\hat{h} k^l])
其中，(\chi_k^l)是第(l)个WNCS对的回归函数，(\Delta\chi_k^l = \chi_k^l - \chi {k - 1}^l)，(\alpha_h^l)是价值函数估计器的学习率。

基于估计的(H_k^l)矩阵，第(l)个WNCS对的随机最优控制策略可以表示为：
(E_{\tau, \gamma}[u_k^l] = - [\hat{H} {k}^{luu}]^{-1} \hat{H} {k}^{luz} z_k^l)

2.3 随机最优控制设计的算法实现

2.3.1 第(l)个WNCS对的随机最优控制算法

初始化：(\hat{h}_l^0 = 0)，并实施可允许控制(u_l^0)。
当(kT_s \leq t < (k + 1)T_s)时：
- 计算价值函数估计误差(e_{hk}^l)。
- 更新价值函数估计器的参数：
  (E_{\tau, \gamma}[\hat{h} {k + 1}^l] = E {\tau, \gamma}[\hat{h} k^l] + \alpha_h^l \chi_k^l e {hk}^l - \Delta\chi_k^l (\Delta\chi_k^l)^T E_{\tau, \gamma}[\hat{h}_k^l])
- 基于估计的(H_k^l)矩阵更新控制输入：
  (E_{\tau, \gamma}[u_k^l] = - [\hat{H} {k}^{luu}]^{-1} \hat{H} {k}^{luz} z_k^l)
结束循环。
进入下一个时间间隔([(k + 1)T_s, (k + 2)T_s))（即(k = k + 1)），返回步骤2。

2.3.2 第(l)个WNCS对的工厂算法

初始化：第(l)个WNCS对的状态(z_k^l)。
当(kT_s \leq t < (k + 1)T_s)时：
- 接收并实施来自控制器的控制输入。
- 如果在同一时间工厂接收到多个控制输入：
  - 应用最新的控制输入到工厂，并丢弃其他控制输入。
- 否则，如果旧的控制输入在新的控制输入之后到达工厂：
  - 丢弃旧的控制输入，并应用新的控制输入到工厂。
- 否则，控制输入在不同时间被工厂接收并按顺序保存。

通过以上算法，可以实现对WNCS的随机最优控制，同时通过跨层分布式调度协议优化无线网络性能，满足不同WNCS对的网络缺陷约束。这种协同设计方法为解决WNCS面临的挑战提供了一种有效的解决方案。

3. 随机最优控制设计的优势与挑战分析

3.1 优势

随机最优控制设计在WNCS中具有显著优势，具体如下表所示：
|优势|说明|
| ---- | ---- |
|适应不确定性|能够在无线网络延迟和数据包丢失等不确定因素存在的情况下，通过自适应估计随机价值函数矩阵，实现对系统的有效控制，使系统状态、识别误差和权重估计误差趋近最小边界，接近无限时域随机最优控制策略。|
|跨层协同优化|控制设计和调度协议的跨层协同，使得无线网络性能和受控系统性能能够同时得到优化，避免了传统设计中只关注单一层面而忽略其他层面影响的问题。|
|实时性考虑|在设计过程中考虑了控制系统的实时性要求，通过不断调整控制输入和调度方案，确保系统在实时环境下的稳定性和可靠性。|

3.2 挑战

尽管随机最优控制设计有诸多优势，但也面临一些挑战，主要包括：
- 系统动态未知 ：由于实际WNCS中无线缺陷事先未知，系统动态无法直接获取，导致无法直接求解(H_l)矩阵，需要进行自适应估计，增加了设计的复杂性。
- 调度协议设计难度大 ：要设计一个既能优化无线网络性能，又能满足不同WNCS对网络缺陷约束的最优分布式调度协议是一项挑战，需要综合考虑多种因素，如无线网络吞吐量、随机价值函数等。
- 计算复杂度高 ：自适应估计随机价值函数矩阵和更新控制输入的过程涉及大量的计算，对系统的计算能力和实时性要求较高。

4. 随机最优控制设计的流程总结

为了更清晰地展示随机最优控制设计的过程，下面给出其流程图：

graph TD
    A[初始化] --> B[计算价值函数估计误差]
    B --> C[更新价值函数估计器参数]
    C --> D[基于估计矩阵更新控制输入]
    D --> E{是否达到时间间隔上限}
    E -- 否 --> B
    E -- 是 --> F[进入下一个时间间隔]
    F --> B

4.1 详细步骤

初始化 ：
- 对于第(l)个WNCS对的随机最优控制算法，初始化(\hat{h}_l^0 = 0)，并实施可允许控制(u_l^0)。
- 对于第(l)个WNCS对的工厂算法，初始化其状态(z_k^l)。
计算价值函数估计误差 ：
- 定义价值函数估计误差(e_{hk}^l)为(\hat{V} k^l - V_k^l + z_k^{lT} S_z^l z_k^l + u_k^{lT} R_z^l u_k^l = e {hk}^l)，其中(\hat{V}_k^l)是估计随机价值函数，(S_z^l)和(R_z^l)分别是正定矩阵和半正定矩阵。
更新价值函数估计器参数 ：
- 根据公式(E_{\tau, \gamma}[\hat{h} {k + 1}^l] = E {\tau, \gamma}[\hat{h} k^l] + \alpha_h^l \chi_k^l e {hk}^l - \Delta\chi_k^l (\Delta\chi_k^l)^T E_{\tau, \gamma}[\hat{h} k^l])更新参数，其中(\chi_k^l)是回归函数，(\Delta\chi_k^l = \chi_k^l - \chi {k - 1}^l)，(\alpha_h^l)是学习率。
基于估计矩阵更新控制输入 ：
- 基于估计的(H_k^l)矩阵，根据公式(E_{\tau, \gamma}[u_k^l] = - [\hat{H} {k}^{luu}]^{-1} \hat{H} {k}^{luz} z_k^l)更新控制输入。
时间间隔判断 ：
- 判断是否达到时间间隔上限((k + 1)T_s)，如果未达到，则继续计算价值函数估计误差；如果达到，则进入下一个时间间隔([(k + 1)T_s, (k + 2)T_s))，并将(k)加(1)，然后返回计算价值函数估计误差步骤。