36、非线性时滞系统最优控制与分解电力系统信号识别

非线性时滞系统最优控制与分解电力系统信号识别

非线性时滞系统的RL最优控制器综合

在这部分内容中,我们借助在线自适应动态规划(ADP)完成基于强化学习(RL)的最优控制器综合。基于RL的控制器综合是通过与环境交互,迭代学习定理1中的理想最优控制策略。具体而言,我们利用单个神经网络(NN)推导出一种新颖的基于NN的控制综合策略。与使用两个NN的方法不同,这个单一的NN同时充当执行器NN和评判器NN,因此在NN结构上有很大的自由度。

设 $W_c$ 和 $\hat{W} c \in R^{l×p}$ 分别表示NN的理想权重矩阵和实际权重矩阵。$\varepsilon_a(x)$ 表示近似误差,它由某个正实数 $\varepsilon {aM}$ 界定,即 $|\varepsilon_a(x)| \leq \varepsilon_{aM}$。$\varepsilon_r(x)$ 表示残差误差,假设它由某个正实数 $\varepsilon_{rM}$ 界定,即 $|\varepsilon_r(x)| \leq \varepsilon_{rM}$。$\Phi(x)$ 表示激活函数,它有上下界,即 $\Phi_m \leq |\Phi| \leq \Phi_M$。根据ADP理论,$J(x)$ 可近似表示为:
[J(x) = W_c^T \Phi(x) + \varepsilon_a(x). \quad (22)]
由此,哈密尔顿 - 雅可比 - 贝尔曼(HJB)方程可计算为:
[H (x(t), u(t), W_c) = W_c^T \nabla\Phi(x) \dot{x} + x^T Qx + 2 \int_{0}^{u} \tanh \left(\fra

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值