【最优控制笔记】——4自适应动态规划2

Piccab0o

已于 2023-12-18 13:28:49 修改

阅读量2k

点赞数 30

分类专栏：最优控制课堂笔记文章标签：笔记动态规划算法

于 2023-12-12 11:45:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_52077466/article/details/134920841

版权

最优控制课堂笔记专栏收录该内容

11 篇文章

订阅专栏

博客围绕迭代自适应动态规划展开，针对一般最优控制难获解析解的问题，介绍了值迭代方法。阐述了值迭代基本思想与实现过程，证明了迭代收敛性，还指出系统存在ui不一定使系统稳定的问题，并提及改进值迭代方法，如推广初始条件等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自适应动态规划

2. 迭代自适应动态规划

面对的问题：

一般最优控制很难直接得到解析解，因此需要想办法得到数值解：

原先应用Bellman最优原理时，最后一步 $N$ 时刻状态已知，但当最后一步变成无限域的第 $\infty$ 步时，应该怎么求解最优性能指标（找到方程的解）？

解决方式：

可以通过值迭代和策略迭代的方法实现求解。

2.1 值迭代基本思想

如何迭代？

从Bellman动态规划算法出发，目的是求解最优控制下的性能指标（值函数）：

$V(x_k)=min_{u_k}[g_D(x_k,u_k)+V(x_{k+1})]$

对于该方程的解，求解思想是：固定 $x_k$ ，能否将其改写成 $V(x_k)=f(V)$ 的形式，利用迭代计算逼近最优解 $V$ ？

实现：

给定任意初值 $V_0$ 时，若通过 $x = f (x)$ 的无限次迭代

$V_1(x_k)=f(V_0(x_k))\\ V_2(x_k)=f(V_1(x_k))\\ ...\\ V_\infty(x_k)= V_{N-1}(x_k)$

最终收敛，则必定达到最优解 $V(x_k)=f(V)$ 。

（本质上是神经网络更新权重）

2.2 值迭代的实现过程

根据值迭代的基本思想，先推导 $x = f (x)$ 的实现过程：

令近似的初始值函数为：

$V_0(·)≡0$

初始迭代控制率为：

$u_0(x_k)=argmin_{u_k}[g_D(x_k,u_k)+V_0(x_{k+1})]$

由 $x_{k+1}=f(x_k,u_k)$ ，根据Bellman最优原理，可得迭代的近似性能指标函数：

$V_1(x_k)\\=g_D(x_k,u_0(x_k))+V_0(f_D(x_k,u_0(x_k)))$

进而，推广到 $i = 1, 2, ..., k$ ，获得迭代控制率：

$u_i(x_k)=argmin_{u_k}[g_D(x_k,u_k)+V_i(x_{k+1})]$

(原理上是括号里的函数对 $u_k$ 求偏导，得到函数最小时 $u_k$ 的形式)

和更新性能指标函数：

$V_{i+1}(x_k)\\=g_D(x_k,u_i(x_k))+V_i(f_D(x_k,u_i(x_k)))$

原理：

由于在k时刻下的状态 $x_k$ 不变，且满足关系 $x_{k+1}=f(x_k,u_k)$ ，因此对于k时刻下的不同的近似控制率 $u_i$ ，可以得到不同的 $x_{k+1}$ 和 $V(x_{k+1})$ ，进而可以得到不同的近似性能指标函数 $V_i(x_k)$ ，当找到最优控制率时，无论怎么迭代最优性能指标应该接近，即迭代过程中的 $V_{i\rightarrow\infty}(x_k)$ 应与前一步 $V_{i\rightarrow\infty-1}(x_k)$ 约等，即收敛，找到了Bellman最优方程的解，同时相当于找到了 $k$ 时刻的最优控制率和最优性能指标（值函数）。

其流程图如下：
在这里插入图片描述

2.3 证明迭代的收敛性以应用

为了使用值迭代，还需要证明其收敛性：

即只需要证明：“函数序列{ $V_i$ }是单调非减且有上界的”，则极限 $V_\infty(x_k)$ 一定存在，并且其会收敛到最优控制下的值函数 $V(x_k)$ ，即满足：

$lim_{i\rightarrow\infty}V_i(x_k)=V(x_k)$

一般，有三种方法证明，此处使用辅助函数法：

① 辅助函数 $\Lambda$ ：证明有界

对于任意控制率 $\mu_i(x_k)$ 及对应的性能指标：

$\Lambda_{i+1}(x_k)=g_D(x_k,\mu_i(x_k))+\Lambda_{i}(x_{k+1})$

其中， $\Lambda_0=V_0=0$ ， $\forall i$ ，可以证明出最优性能指标满足：

$V_i(x_k)\leq\Lambda_i(x_k)$

证：

根据Bellman最优原理，有最优性能指标：

$V_{i+1}(x_k)=min[g_D(x_k,u_k)+V_i(x_{k+1})]$

$g_D(x_k,u_i)+V_i(x_{k+1})$

$\leq g_D(x_k,u_i)+\Lambda_i(x_{k+1})=\Lambda_{i+1}(x_k)$

得证。

② 辅助函数 $Z$ ：证明有上界

若系统可控，则存在上界 $Y$ 使得： $\leq V_i(x_k) ≤ Y$

证：

对于容许控制率，其满足两个条件：

1）将容许控制率应用于系统，系统是稳定的；

2）系统的性能指标 $J=\Sigma_{i=0}^\infty (X^TQX+U_i^TRU_i)<Y<\infty$

令 $\eta$ 是容许控制率，则有：

$Z_{i+1}(x_k)=g_D(x_k,\eta)+Z_i(x_{k+1})$

$Z_i(x_k)=g_D(x_k,\eta)+Z_{i-1}(x_{k+1})$

两者做差有：

$Z_{i+1}(x_k)-Z_i(x_k)=Z_i(x_{k+1})-Z_{i-1}(x_{k+1})$

$Z_{i-1}(x_{k+2})-Z_{i-2}(x_{k+2})=...=Z_1(x_{k+i})-Z_0(x_{k+i})$

因此可得：

$Z_{i+1}(x_k)=Z_i(x_k)+Z_1(x_{k+i})$

$Z_i(x_k)=Z_{i-1}(x_k)+Z_1(x_{k+i-1})$

$...$

$Z_1(x_k)=Z_0(x_k)+Z_1(x_{k})$

对上式累加可得：

$Z_{i+1}(x_k)=\Sigma_{j=0}^iZ_1(x_{k+j})$

又因为：

$Z_1(x_k)=g_D(x_k,\eta(x_k))$

因此，当 $i\rightarrow\infty$ 时，有：

$Z_\infty(x_k)=\Sigma_{j=0}^\infty g_D(x_{k+j},\eta(x_{k+j}))$

对于容许控制率， $J$ 一定有界，因此上式一定满足：

$Z_\infty(x_k)<Y<\infty$

进一步的有：

$V_i(x_k)\leq Z_i(x_k)<Y$

得证。

③ 辅助函数 $\phi$ ：证明单调递增

$\forall i,x_k$ ，有 $V_i(x_k)\leq V_{i+1}(x_k)$

对辅助函数：

$\phi_{i+1}(x_k)=g_D(x_k,u_{i+1}(x_k))+\phi_i(x_{k+1})$

令 $\phi_0(x_k)=0$ ，则：

$V_1(x_k)=g_D(x_k,u_0)+V_0(x_{k+1})\geq\phi_0(x_k)$

假设 $V_l\geq\phi_{l-1}$ ，对 $l = 1, 2, ...$

因为： $V_{i+1}(x_k)=min[g_D+V_i]\geq min[g_D+V_{i-1}]=V_i(x_k)$

则对：

$V_{l+1}(x_k)=g_D(x_k,u_l)+V_l(x_{k+1})$

$\phi _l(x_k)=g_D(x_k,u_l)+V_{l-1}(x_{k+1})$

对于最优控制 $V_l$ ，一定有： $V_{l+1}(x_k)\geq\phi_l(x_k)\geq V_l(x_k)$

得证。

2.4 系统的问题

$u_i$ 不一定能使系统稳定，只有迭代次数足够多的时候才有可能使系统稳定

2.5改进值迭代方法：

经典值迭代方法中，初始条件 $V_0(x_k)=0$ ，可以证明：

$V_i(x_k)\to V(x_k)$

$u_i(x_k)\to u^*(x_k)$

广义值迭代将初始条件推广至任意的正半定函数：

$V_0(x_k)=\Phi(x_k)$

我们的目的是让Vi逼近J*，没必要找Vi和Vi+1的关系

因此能不能找到J*上界和下界δ，两界收敛，则Vi+1出来了

难点是系数不一样，让系数一样凑系数

若F>=0满足成立，则式子成立

再来一次，找一找有没有统一的规律

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。