36、非线性时滞系统最优控制与分解电力系统信号识别

最新推荐文章于 2025-10-31 12:03:57 发布

fire9

最新推荐文章于 2025-10-31 12:03:57 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏：神经计算赋能智能未来文章标签：非线性时滞系统强化学习自适应动态规划

本文链接：https://blog.youkuaiyun.com/fire9/article/details/152591759

神经计算赋能智能未来专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

非线性时滞系统最优控制与分解电力系统信号识别

非线性时滞系统的RL最优控制器综合

在这部分内容中，我们借助在线自适应动态规划（ADP）完成基于强化学习（RL）的最优控制器综合。基于RL的控制器综合是通过与环境交互，迭代学习定理1中的理想最优控制策略。具体而言，我们利用单个神经网络（NN）推导出一种新颖的基于NN的控制综合策略。与使用两个NN的方法不同，这个单一的NN同时充当执行器NN和评判器NN，因此在NN结构上有很大的自由度。

设 $W_c$ 和 $\hat{W} c \in R^{l×p}$ 分别表示NN的理想权重矩阵和实际权重矩阵。$\varepsilon_a(x)$ 表示近似误差，它由某个正实数 $\varepsilon {aM}$ 界定，即 $|\varepsilon_a(x)| \leq \varepsilon_{aM}$。$\varepsilon_r(x)$ 表示残差误差，假设它由某个正实数 $\varepsilon_{rM}$ 界定，即 $|\varepsilon_r(x)| \leq \varepsilon_{rM}$。$\Phi(x)$ 表示激活函数，它有上下界，即 $\Phi_m \leq |\Phi| \leq \Phi_M$。根据ADP理论，$J(x)$ 可近似表示为：
[J(x) = W_c^T \Phi(x) + \varepsilon_a(x). \quad (22)]
由此，哈密尔顿 - 雅可比 - 贝尔曼（HJB）方程可计算为：
[H (x(t), u(t), W_c) = W_c^T \nabla\Phi(x) \dot{x} + x^T Qx + 2 \int_{0}^{u} \tanh \left(\fra