非线性时滞系统最优控制与分解电力系统信号识别
非线性时滞系统的RL最优控制器综合
在这部分内容中,我们借助在线自适应动态规划(ADP)完成基于强化学习(RL)的最优控制器综合。基于RL的控制器综合是通过与环境交互,迭代学习定理1中的理想最优控制策略。具体而言,我们利用单个神经网络(NN)推导出一种新颖的基于NN的控制综合策略。与使用两个NN的方法不同,这个单一的NN同时充当执行器NN和评判器NN,因此在NN结构上有很大的自由度。
设 $W_c$ 和 $\hat{W} c \in R^{l×p}$ 分别表示NN的理想权重矩阵和实际权重矩阵。$\varepsilon_a(x)$ 表示近似误差,它由某个正实数 $\varepsilon {aM}$ 界定,即 $|\varepsilon_a(x)| \leq \varepsilon_{aM}$。$\varepsilon_r(x)$ 表示残差误差,假设它由某个正实数 $\varepsilon_{rM}$ 界定,即 $|\varepsilon_r(x)| \leq \varepsilon_{rM}$。$\Phi(x)$ 表示激活函数,它有上下界,即 $\Phi_m \leq |\Phi| \leq \Phi_M$。根据ADP理论,$J(x)$ 可近似表示为:
[J(x) = W_c^T \Phi(x) + \varepsilon_a(x). \quad (22)]
由此,哈密尔顿 - 雅可比 - 贝尔曼(HJB)方程可计算为:
[H (x(t), u(t), W_c) = W_c^T \nabla\Phi(x) \dot{x} + x^T Qx + 2 \int_{0}^{u} \tanh \left(\fra
超级会员免费看
订阅专栏 解锁全文
46

被折叠的 条评论
为什么被折叠?



