A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems

最新推荐文章于 2025-12-17 08:26:24 发布

原创

最新推荐文章于 2025-12-17 08:26:24 发布 · 743 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #学习

A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems✩，2021， Chun Li, Jinliang Ding, Frank L. Lewis, Tianyou Chai

对离散非线性系统的最优跟踪问题，提出新的值函数形式，以通过ADP算法消除跟踪误差。为避免求解参考控制输入，将控制输入引入控制跟踪误差中，忽略控制输入的二次型，使得最优控制策略仅与跟踪误差和参考跟踪轨迹有关。值函数的收敛性和有界性与折扣因子无关。基于提出的值迭代方法，在不考虑参考控制输入情况下推导出最优控制策略。根据VI和PI算法证明所得到控制策略的最优性，并推出迭代值函数的收敛性和单调性。采用神经网络和动作评价网络验证ADP算法有效性。

根据往年的文献，跟踪问题可转化为调节问题，但不易求解参考控制输入。可通过原系统和指令生成器组成增广系统，避免求解参考控制输入。当增广系统不可控，其边界与值函数的参数有关，则不能消除跟踪误差。

根据Actor–Critic-Based Optimal Tracking for Partially Unknown Nonlinear Discrete-Time Systems 2015提出的值函数进行改进。包含折扣因子 $γ\gamma$
在这里插入图片描述

以上的值函数形式在特殊情况下，跟踪误差不能被消除。因此对其改进值函数：

根据最优控制的必要条件得到最优控制的表达式，虽然不易直接计算，但是仍可作为控制策略的表达标准。

VI算法收敛性证明

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

LucienLSA

关注关注

19
点赞
踩
22

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Discounted Iterative Adaptive Critic Designs With Novel Stability Analysis for Tracking Control

DarlingLSA的博客

03-17

420

由于最优值函数在一开始未知，Theorem2给出在相应的折扣因子满足的条件下，迭代控制策略下跟踪误差趋于0。Theorem3讨论函数近似器（神经网络）的近似误差的条件，满足近似迭代值函数和折扣因子的条件，则跟踪误差趋于0。如果折扣因子选取不当，不能保证闭环系统的稳定性，由于迭代值函数中不仅有跟踪误差，还包括参考控制输入，故不能视为李雅普诺夫函数。给出VI算法的值更新和策略提升步骤。Lemma1给出迭代值函数是单调不增的，且在折扣因子下迭代值函数和最优值函数的不等式，以及迭代值函数和控制策略收敛到最优。

Value Iteration Adaptive Dynamic Programming for Optimal Control of Discrete-Time Nonlinear Systems

DarlingLSA的博客

03-17

2115

对离散时间非线性系统，采用值迭代ADP算法，求解无限时域无折扣因子最优控制问题。初始值函数为任意半正定。提出，保证迭代值函数收敛到最优值函数。初始化不同值函数，可证明迭代值函数为单调不增，单调不减或不单调。由于迭代控制策略的可容许性不能仅靠收敛终止判据来保证，因此第一次提出值迭代算法的迭代控制策略的容许性，确定新的终止标准以保证迭代控制策略的有效性。神经网络近似迭代值函数和计算迭代控制策略。

3 条评论您还未登录，请先登录后发表或查看评论

ADP论文学习-最优跟踪控制问题

DarlingLSA的博客

03-01

1372

对初始值函数为0，其值迭代VI算法迭代控制策略使得系统不能保证稳定。Theorem3.1给出在PI算法下，迭代值函数是单调不增的。连续时间和离散时间的策略迭代算法不同，首先HJB方程不同，且连续时间下的分析方法基于微分。，迭代值函数是单调不增，收敛到HJB方程的最优值。当迭代次数趋于无穷时，PI算法收敛，有迭迭代控制策略近似最优控制策略，迭代值函数是单调不增收敛到最优。传统的DP方法会面临维数灾难问题，控制序列是无限的，几乎不可能由HJB方程获得最优控制。获得最优控制策略，必须先获得最优值函数。

Model-Free Q-Learning for the Tracking Problem of Linear Discrete-Time Systems

DarlingLSA的博客

03-28

554

Model-Free Q-Learning for the Tracking Problem of Linear Discrete-Time Systems，2024， Chun Li , Jinliang Ding , Senior Member, IEEE, Frank L. Lewis , Life Fellow, IEEE, and Tianyou Chai , Life Fellow, IEEE

Online Optimal Control of Affine Nonlinear DT Systems With Unknown Internal Dynamics by Using Time-B

DarlingLSA的博客

03-17

848

对仿射非线性离散时间系统，不使用策略迭代和值迭代方法，使用神经网络时间上向前求解HJB方程得到最优控制。未知内部动力学和已知的控制协矩阵（仅需要输入增益），近似代价函数即评价网络，产生控制输入和策略更新即动作网络。在采样时刻对代价函数额和控制策略一次更新，称为time-based ADP。李雅普诺夫理论证明所有信号是一致最终有界，近似控制策略逼近最优控制策略以很小的有界误差，神经网络权重估计值接近目标值，此时代价函数和控制策略随时间更新。

Generalized Policy Iteration-based RL Algorithm for Optimal Control of Unknown Discrete-time Systems

DarlingLSA的博客

03-17

502

根据B. Luo, D. Liu, H. N. Wu, D. Wang, F. L. Lewis, Policy gradient adaptive dynamic programming for data-based optimal control中的Policy gradient方法优点是放松系统动力学的要求，避免模型网络近似误差，使用离线数据直接得到最优控制。两个步骤获得迭代值函数和迭代控制策略，采用时间差分法学习获得迭代Qfunction，采用策略梯度法获得迭代控制策略。

Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using RL

DarlingLSA的博客

03-17

2439

原系统状态和指令生成器的值函数形式是二次型的。LQT贝尔曼方程和LQT的ARE方程，以求解LQT方程。采用积分RL算法在系统漂移动力学或者指令生成器未知的情况下在线求解LQT的ARE方程解，并给出收敛性分析。传统LQT解最优控制由两部分：求解ARE得到反馈项，求解微分方程或利用系统动力学先验计算期望控制输入。反馈项稳定跟踪误差动力学，前馈项保证跟踪轨迹。传统离线方法，需要时间上向后计算和完整系统动力学。在以往文章中采用动力学可逆概念以求得前馈控制输入，RL以求解最优反馈控制输入。

Event-based adaptive NN tracking control of nonlinear discrete-time systems

02-08

神经网络（NN）在控制领域中的应用一直是研究的热点，特别是在非线性系统跟踪控制方面。非线性离散时间系统（NDTS）因其在工业自动化、机器人控制以及复杂动态系统的建模中的广泛应用而受到越来越多的关注。...

Adaptive neural network tracking control of uncertain nonlinear discrete-time systems with nonaffine dead-zone input

02-07

### 适应性神经网络跟踪控制不确定非线性离散时间系统的非仿射死区输入 #### 概述本文探讨了一类具有死区输入的非线性离散时间系统的适应性跟踪控制问题。该系统属于非仿射纯反馈形式，其中死区输入以非线性方式...

运放学习笔记

Z97371539的博客

12-13

581

单电源运放是指仅使用单一电源电压（例如，+5V）和地（0V）作为电源供给的运放。也就是说，它只需要一个正电压和地作为参考电压，而不需要负电压。

先立后破：Linux 下“新建管理员 → 验证 → 禁用 root 远程 SSH”的零翻车笔记

weixin_45626288的博客

12-12

544

本文提供了一套零风险的Linux服务器安全加固流程，重点解决等保2.0要求的"禁用root远程SSH"需求。通过"先立后破"原则，先创建并验证新管理员账号的sudo权限，再禁用root远程登录，全程保持root会话不断开作为应急通道。关键步骤包括：创建新管理员账号、配置sudo权限、严格测试新账号功能、安全修改sshd配置、保留本地root登录权限等。文章特别强调验证环节的重要性，并提供了快速回滚方案，确保运维人员不会因配置失误导致服务器失联。这套方法适用于Kylin

AD学习笔记-36 gerber文件输出

2401_83451707的博客

12-14

300

今天，我们学习如何导出gerber文件，这是我们给板厂的最终文件。

Android学Dart学习笔记第十四节库和导库

weixin_44656996的博客

12-15

763

其他语言中的访问修饰符关键字提供了更细粒度的控制，而Dart使用下划线和基于库的隐私提供了直接的配置机制，有助于高效实现动态访问，并改进了树抖动（死代码消除）。库不仅提供api，还是隐私的单位：以下划线（_）开头的标识符只在库内部可见。当你导入的多个库中，使用了相同的类名时，可以为库起个别名，使用别名.类名明确指定所引用的类。使用import来指定如何在另一个库的作用域中使用来自一个库的命名空间。带有通配符_的导入前缀是不绑定的，但可以访问该库中的非私有扩展。

Compose笔记(六十)--TriStateCheckbox

ljt2724960661的博客

12-14

158

这一节主要了解一下Compose中的TriStateCheckbox,TriStateCheckbox是Jetpack Compose中支持三种状态的复选框组件，相比...

C++基础笔记（二）队列deque,queue和堆priority_queue

qq_43869689的博客

12-12

323

由于deque不完全连续的实现思想，在插入/删除时，如果涉及到新块扩容（增加一个新的block）有可能导致迭代器失效，建议稳妥的做法时涉及到频繁的删除就用list链表，别用的队列实现，或者分两边操作，第一遍只遍历检查，确定要删除的数据，第二遍开始从后往前删除（一般情况不建议删除，加个标记表示这个数据失效就行，比如用一个set或者数组记录哪些元素失效）。关于priority_queue也是差不多。

【大模型】happy-llm笔记

weixin_45207619的博客

12-16

145

今天看了这套课程的第二章到第四章的内容，对自己一直以来好奇的一些llm相关的问题有了解答。将我遇到的问题整理到下面，部分可能没有回答，感兴趣的同学可以去原课程查找。happy-llm是datawhale发布的一套关于llm的教程，链接。

学习笔记——Linux 进程管理笔记

2301_78295956的博客

12-13

904

本文总结了Linux进程管理的核心知识点：1.父子进程关系采用写时复制技术优化内存使用；2.进程终止的8种情况（正常/异常终止）；3.僵尸进程（需主动回收）和孤儿进程（自动接管）的区别；4.exit()与_exit()函数的关键差异；5.wait()函数回收子进程状态的机制及检查宏使用；6.进程空间回收的重要性及策略。重点强调正确处理僵尸进程的必要性，避免系统资源泄漏。

JPA 学习笔记 8：与数据库交互