非线性二人零和博弈的最优设计
1. 闭环系统稳定性
在非线性二人零和博弈的研究中,闭环系统的稳定性是一个关键问题。对于具有未知网络缺陷和系统动力学的网络化控制系统(NNCS)二人零和博弈,我们将证明其闭环系统在均值上是有界的,且边界是初始条件和最终时间的函数。
首先,初始的NNCS二人零和系统状态由于初始可允许策略 $u_0(z_k)$ 和 $d_0(z_k)$ 而处于一个紧凑集合 $\Omega$ 中。同时,动作神经网络(NN)的激活函数、评判神经网络的激活函数及其梯度在紧凑集合 $\Omega$ 中都是有界的。为了满足持续激励(PE)条件,我们可以添加探索噪声,并且适当地选择NN的调参 $\alpha_I$、$\alpha_V$、$\alpha_u$ 和 $\alpha_d$,以确保所有未来系统状态都保持在紧凑集合内。
在证明主要定理之前,我们需要用到以下引理:
引理7.1 :设一组最优控制和干扰策略应用于NNCS二人零和博弈(7.11),使得方程7.11在均值上渐近稳定。那么,闭环NNCS二人零和博弈动力学 $E_{ \tau, \gamma} [ F(z_k) + G(z_k)u^ (z_k) + H(z_k)d^ (z_k) ]$ 满足以下不等式,对于 $k = 0, \ldots, N$:
[
E_{ \tau, \gamma} [ F(z_k) + G(z_k)u^ (z_k) + H(z_k)d^ (z_k) ]^2 \leq l_o E_{ \tau, \gamma} (z_k)^2
]
其中 $u^ (z_k)$ 和 $
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



