Modified λ-Policy Iteration Based ADP for Unknown Discrete-Time Linear Systems

原创

已于 2024-04-03 11:39:34 修改 · 515 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记

于 2024-04-02 23:53:06 首次发布

Modified λ-Policy Iteration Based Adaptive Dynamic Programming for Unknown Discrete-Time Linear Systems，2024， Huaiyuan Jiang , Bin Zhou , Senior Member, IEEE, and Guang-Ren Duan , Fellow, IEEE

对离散时间线性系统的最优控制问题，重新考虑和重述了 $λ−PI\lambda-PI$ 算法。给出传统 $λ−PI\lambda-PI$ 新的特性，改进传统该算法证明其收敛性。基于现有算法，初始条件放宽。根据新的矩阵秩条件提出数据驱动的可行性。
$λ−PI\lambda-PI$ 平衡PI和VI算法，以off-policy针对LQR问题。改进 $λ−PI\lambda-PI$ ，增加修正回路，可保证迭代过程中迭代矩阵序列有界，使其与传统的PI和 $λ−PI\lambda-PI$ 相比，放宽了初始条件。即初始控制器不需要是可容许的。
选取 $λ\lambda$ 与算法收敛性分析的关系，给出初始条件选取方法。基于数据驱动和模型算法的等价性，以统一条件验证提出数据驱动算法的可行性。

传统 $λ−PI\lambda-PI$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

LucienLSA

关注关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Value Iteration Adaptive Dynamic Programming for Optimal Control of Discrete-Time Nonlinear Systems

DarlingLSA的博客

03-17

2135

对离散时间非线性系统，采用值迭代ADP算法，求解无限时域无折扣因子最优控制问题。初始值函数为任意半正定。提出，保证迭代值函数收敛到最优值函数。初始化不同值函数，可证明迭代值函数为单调不增，单调不减或不单调。由于迭代控制策略的可容许性不能仅靠收敛终止判据来保证，因此第一次提出值迭代算法的迭代控制策略的容许性，确定新的终止标准以保证迭代控制策略的有效性。神经网络近似迭代值函数和计算迭代控制策略。

ADP论文学习-最优调节控制问题

DarlingLSA的博客

02-16

1274

有关ADP 的经典文章学习记录

参与评论您还未登录，请先登录后发表或查看评论

Policy Iteration Adaptive Dynamic Programming Algorithm for Discrete-Time Nonlinear Systems

DarlingLSA的博客

03-17

1512

本文是第一次对离散非线性系统采用策略迭代的方法分析收敛性和稳定性。反复实验获得，迭代值函数是单调不增，收敛到HJB方程的最优值。证明任意迭代控制策略使非线性系统稳定。神经网络近似值函数和求最优控制，且分析权重矩阵的收敛性。根据Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof ，2008 Asma Al-Tamimi;

(vue中使用v-for报错)You are binding v-model directly to a v-for iteration alias.

qq_32777253的博客

02-24

9791

(vue中使用v-for报错)You are binding v-model directly to a v-for iteration alias. 分析：这个错误是由于在使用v-for循环做一些动态生成的事务时，v-model直接绑定了v-for中的迭代变量导致的，例如下图中<el-input v-model="teacher" auto-complete="off"></...

FPI(Fixed-point Iteration)不动点迭代法——迭代求方程的方法

maum61的专栏

03-03

6042

一不动点是什么？不动点，其实定义比较简单，对于一些方程，例如f(x)=cosx，那么令cosx=x的点就是函数的不动点，说白了，就是y=x这条直线与函数曲线的交点。这个不动点有什么用呢？请继续往下看。二不动点迭代法的实现不动点迭代法，是求方程的迭代方法。为什么要迭代的求，直接法不好吗？直接法显然比较好，但是存在弊端，比如函数形式较复杂时，求解器不容易直接求得。利用不动点的性质，可以...

ADP论文学习-最优跟踪控制问题

DarlingLSA的博客

03-01

1381

对初始值函数为0，其值迭代VI算法迭代控制策略使得系统不能保证稳定。Theorem3.1给出在PI算法下，迭代值函数是单调不增的。连续时间和离散时间的策略迭代算法不同，首先HJB方程不同，且连续时间下的分析方法基于微分。，迭代值函数是单调不增，收敛到HJB方程的最优值。当迭代次数趋于无穷时，PI算法收敛，有迭迭代控制策略近似最优控制策略，迭代值函数是单调不增收敛到最优。传统的DP方法会面临维数灾难问题，控制序列是无限的，几乎不可能由HJB方程获得最优控制。获得最优控制策略，必须先获得最优值函数。

v-for 循环时直接使用 v-model 绑定报错

LonewoIf的博客

05-29

5128

报错信息：You are binding v-model directly to a v-for iteration alias. This will not be able to modify the v-for source array because writing to the alias is like modifying a function local variable. // 错误...

最小二乘策略迭代 least-squares policy iteration (LSPI)

阿涛的博客

01-15

5160

LSPI是将价值函数逼近与线性架构和近似策略迭代相结合的方法。LSPI也可以理解为是LSTD与Q学习相结合。用于预测问题的最小二乘时间差分学习算法（LSTD），学习固定策略的状态值函数，相比纯粹的时间差分算法更有效率地使用样本经验。最小二乘策略迭代（LSPI）学习状态 - 动作值函数，该函数允许在没有模型的情况下进行动作选择，并且在策略迭代框架内进行增量策略改进。 LSPI是一种免模型(m...

修复Scikit-learn中的ConvergenceWarning：模型未收敛

最新发布

qq_41894068的博客

01-07

规律：x是一个5维向量，如果第1个数>第5个数，则为正样本，反之为负样本。实现一个自行构造的找规律(机器学习)任务。基于pytorch框架编写模型训练。

Kubernetes 学习总结（49）—— Kubernetes 本地目录挂载详解

科技D人生

01-04

858

本文介绍了Kubernetes中实现本地目录挂载的核心方法。通过hostPath卷类型和VolumeMounts挂载点，可将节点本地目录映射到Pod容器内部。详细说明了两种场景的实现步骤：单节点直接挂载和多节点通过nodeSelector指定目标节点挂载。强调了hostPath的type参数校验规则及常见问题解决方案，包括目录权限、调度错误等。建议生产环境避免宽权限配置，并指出本地挂载仅适用于非核心数据场景。如需高可用或多节点共享，应考虑NFS或PV/PVC方案。

学习笔记097——Ubuntu系统中如何通过service服务的方式启动 jar 包？

code__bee的博客

01-06

182

【代码】学习笔记097——Ubuntu系统中如何通过service服务的方式启动 jar 包？

元旦学习了两种全新的拍摄手法

卢松松

01-05

394

（3）尝试把视频控制在40秒以内，绝不拖沓。这一年这个日常号让我学习多种拍摄手法。（1）尝试在人多的地方拍视频。（2）尝试全身出境拍短视频。

不同就业方向（如AI、网络安全、前端开发）的具体学习路径和技能要求是什么？

2401_85029001的博客

01-06

347

基于自步学习的逻辑回归算法研究

专业代码设计

01-05

1065

本论文研究了基于自步学习的逻辑回归算法，旨在提高分类精度和收敛速度。通过引入自适应步长调整机制，算法在多个数据集上均优于传统逻辑回归。实验结果表明，该方法在金融、医疗等领域具有广泛的应用前景，为机器学习领域提供了新的研究方向。

线程池学习（二）线程池详解

似流水般平静而坚定。

01-04

1088

线程池是一种高效管理多线程任务的技术，通过预先创建和维护一组可复用线程来优化系统性能。其核心优势包括线程复用、并发控制、任务排队等，能显著降低线程创建销毁开销，提高响应速度。常见线程池类型包括固定线程池、缓存线程池、单线程池等，适用于不同场景。实现模式主要有领导者-跟随者模式（追求极致性能）和半同步/半异步模式（生产者消费者模式），前者通过动态角色切换实现无锁竞争，后者通过任务队列实现解耦。线程池通过同步队列管理任务分发，在保证线程安全的同时，需注意队列容量控制以防内存溢出。该技术广泛应用于高并发、定时任务

以 JoyAgent-JDGenie 项目为例：如何利用 AI Agent 高效学习开源框架

caicongyang

01-05

974

本文以JoyAgent-JDGenie项目为例，介绍利用AI技术高效学习开源框架的方法。

policy iteration ADP 和 time-based ADP 的区别

07-16

策略迭代的ADP（Approximate Dynamic Programming，近似动态规划）是一种求解最优策略的方法，有两种常见的变体：策略迭代和时间差异（time-based）ADP。它们之间的区别如下： 1. 策略迭代：策略迭代是一种典型的...