Model-Free Optimal Tracking Control via Critic-Only Q-Learning

原创

已于 2024-03-20 21:21:52 修改 · 287 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #学习

于 2024-03-20 15:17:28 首次发布

Model-Free Optimal Tracking Control via Critic-Only Q-Learning Biao Luo, Member, IEEE, 2016，Derong Liu, Fellow, IEEE, Tingwen Huang, and Ding Wang, Member, IEEE

对非仿射非线性离散时间系统，提出model-free最优跟踪控制问题。仅有评价网络的QLearning方法，根据真实系统数据学习最优跟踪控制，因此避免了求解HJB方程。Qlearning算法基于增广系统，仅使用一个神经网络近似Qfunction。考虑神经网络的近似误差证明了CoQL方法的收敛性。采用梯度下降法。CoQL是基于off-policy和仅有评价结构的方法。
为避免显式使用期望控制，利用期望参考轨迹的误差系统和指令生成器以获得增广系统，并且引入折扣因子，不需要内部动力学，采用在线策略迭代方法对线性或非线性连续系统实现最优跟踪轨迹控制 “H. Modares and F. L. Lewis, “Linear quadratic tracking control of partially-unknown continuous-time systems using reinforcement learning”，在具有输入限制的非线性离散系统“B. Kiumarsi and F. L. Lewis, “Actor–critic-based optimal tracking for partially unknown nonlinear discrete-time systems,”，在无完整系统模型，利用输入输出数据求解线性离散系统的最优跟踪控制问题”B. Kiumarsi, F. L. Lewis, M.-B. Naghibi-Sistani, and A. Karimpour, “Optima

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

LucienLSA

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

强化学习与网络安全资源-论文和环境

全网120W+关注AI拉呱，专注人工智能以及科技前沿！

05-14

467

【代码】强化学习与网络安全资源-论文和环境。

【论文阅读笔记】NeurIPS2020文章列表Part2

zincrain的博客

12-09

6408

Online Multitask Learning with Long-Term Memory Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer Proxies Adaptive Graph Convolutional Recurrent Network for Traffic Forecasting On Reward-Free Reinforcement Learning with Linear Function A.

参与评论您还未登录，请先登录后发表或查看评论

【论文笔记】Event-Triggered Multigradient Recursive Reinforcement Learning Tracking Control

qq_45762949的博客

04-20

1683

Event-Triggered Multigradient Recursive Reinforcement Learning Tracking Control for Multiagent Systems 文章目录Event-Triggered Multigradient Recursive Reinforcement Learning Tracking Control for Multiagent Systems论文信息一、摘要二、创新点2.1基于MGR的强化学习策略2.2事件触发三、论文正文3.1引言3

评价模型：CRITIC客观赋权法

m0_64087341的博客

10-29

1万+

CRITIC方法是一种客观权重赋权法，其基本思路是确定指标的客观权数以两个基本概念为基础。一是对比强度，它表示同一指标各个评价方案取值差距的大小，以标准差的形式来表现。二是评价指标之间的冲突性，指标之间的冲突性是以指标之间的相关性为基础，如两个指标之间具有较强的正相关，说明两个指标冲突性较低。CRITIC方法的主要原理是通过对比强度和指标之间的冲突性来确定指标的客观权数，从而实现对评价方案的客观权重赋值。该方法适用于判断数据稳定性，并且适合分析指标或因素之间有着一定的关联的数据。

Optimal Tracking Control of Nonlinear MultiagentSystems Using Internal Reinforce Q-Learning

qq_52607463的博客

03-01

317

小白对大佬文章的阅读，表示十分蒙蔽，只适合自己学习，如果能帮助到大家的话，可借鉴。

强化学习之PPO

qq_42498154的博客

01-11

3487

PPO 1. 概念 PPO：Policy Gradient不好确定Learning rate（step size）的问题，如果因为step size过大，学出来的Policy会一直乱动，不会收敛，但如果step size太小，对于完成训练，会很长时间，因此PPO利用了New Policy和Old Policy的比例，限制了New Policy的更新幅度，让Policy Gradient对稍微大的step size不那么敏感。 PPO是基于Actor Critic 的算法。 2.原理从On-policy--

Reinforcement Learning: Model-free control

I AM BACK

12-20

533

On-policy Monte-Carlo Control On-Policy Temporal-Difference Learning Off-Policy Learning使用Monte-Carlo对off-policy进行更新使用TD对off-policy进行更新使用Q-learning进行off-policy的更新上一节讲到的是对未知MDP的value function进行估计，这一节是

weixin_40263919的博客

04-21

880

新书推荐

CMU最新论文：机器人智慧流畅的躲避障碍物论文详细讲解

jiayoushijie的博客

06-14

4863

强化学习经典算法笔记(十五)：Soft Actor-Critic算法实现

hhy_csdn的博客

07-09

7237

强化学习经典算法笔记(十五)：Soft Actor-Critic算法实现算法简介 Soft Actor Critic，SAC算法是一种Off-policy算法，相比于PPO这种On-policy算法，sample efficiency有了提高，相比于DDPG及其变种D4PG，SAC又是一种随机策略算法。 SAC算法是在最大熵强化学习（Maximum Entropy Reinforcement Learning）的框架下构建起来的，目的是让策略随机化，好处是对于机器人控制问题非常友好，甚至可以在真实环境中使

【深度强化学习】Actor-Critic算法

qq_40268672的博客

12-16

3121

Actor-Critic算法回顾策略梯度算法： Actor-Critic算法的区别就是对R(τn)R(\tau^n)R(τn)进行了修改。当R(τn)R(\tau^n)R(τn)具有上述三种形式时，便是经典的AC算法，在AC算法，我们通过另一个叫做Critic的神经网络来估计Vπ(st)V^{\pi}(s_{t})Vπ(st)（或其他，视具体情况而定)。本博客实现的便是基于TD残差的AC算法，其策略网络的梯度如下图所示相应的Actor和Critic损失函数为：这里ei=rtn+Vπ(st

DDPG（2）-critic_network

qq_30626231的博客

06-18

2293

1、引用python库import tensorflow as tf import numpy as np import math 2、声明参数LAYER1_SIZE = 400 LAYER2_SIZE = 300 LEARNING_RATE = 1e-3 TAU = 0.001 L2 = 0.013、定义类class CriticNetwork: """docstring for Criti...

强化学习Actor-Critic算法究竟是怎么回事？

choushi5845的博客

09-02

3860

我们有了像Q-learning这么好的算法,为什么还要再折腾出一个Actor-Critic算法呢?原来 Actor-Critic 的 Actor 的前生是 Policy Gradients, 这能让它毫不费力地在连续动作中选取合适的动作,而Q-learning 做这件事会瘫痪。那为什么不直接用...

Actor-Critic：强化学习之摆车

m0_63642362的博客

12-18

783

深度强化学习入门；经典案例详细分析。这个我的强化学习入门之作，参考官方样例，添加详细注释，易于理解。欢迎fork；欢迎评论；欢迎共同探讨，共同进步。

【强化学习】Actor-Critic算法详解