自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记U9RL中的约束与安全三

对应于原书第九单元State Constraints and Safety Consideration,主要讲述了强化学习中的约束和安全考量。本次文章分三次发布。这是第三篇。

2025-02-20 09:58:24 970

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记U9RL中的约束与安全二

对应于原书第九单元State Constraints and Safety Consideration,主要讲述了强化学习中的约束和安全考量。本次文章分三次发布。这是第二篇。

2025-02-20 09:47:14 715

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记U9RL中的约束与安全一

对应于原书第九单元State Constraints and Safety Consideration,主要讲述了强化学习中的约束和安全考量。本次文章分三次发布。这是第一篇。

2025-02-20 09:36:54 762

原创 控制系统可控性检验理论的变革:从模型驱动到数据驱动

数据是人工智能的三大支柱之一。近年,随着人工智能的崛起与应用,以数据为核心的系统表征方法快速进入控制领域,这导致控制系统的设计正经历从模型驱动控制(modelic control,即model-driven control)到数据驱动控制(datatic control,即data-driven control)的范式变革。清华大学李升波教授团队首次提出了微域可控性(即ϵ-可控性)概念及其检验方法,专注于解决数据驱动控制系统空间描述不完整带来的可控性检验挑战。

2024-11-27 14:52:19 741

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记U8近似动态规划ADP 二

对应于原书第八单元Approximate Dynamic Programming,主要讲述了近似动态规划算法(ADP)。本次文章分两次发布。

2024-10-27 15:29:51 1012 1

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记U8近似动态规划ADP 一

对应于原书第八单元Approximate Dynamic Programming,主要讲述了近似动态规划算法(ADP)。本次文章分两次发布。

2024-10-27 15:29:15 1019

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记U7Direct RL二

对应于原书第七单元Direct RL with Policy Gradient。本篇博客分为两次发布。

2024-10-08 08:56:52 904

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记U7Direct RL一

对应于原书第七单元Direct RL with Policy Gradient。本篇博客分为两次发布。

2024-10-08 08:55:46 477

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U6函数近似间接RL2

对应于原书第六单元Indirect RL with Function Approximation。因为博客太长,因此分成几部分发布。这是第二部分。

2024-09-18 17:21:40 1562

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U6函数近似间接RL1

对应于原书第六单元Indirect RL with Function Approximation。因为博客太长,因此分成几部分发布。这是第一部分。

2024-09-18 17:20:56 884

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U5:动态规划(三)

原书第五单元DP(动态规划)部分。本部分因为内容太多,因此分成几部分发布。这是第三部分。

2024-09-01 10:54:58 1057

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U5:动态规划(二)

原书第五单元DP(动态规划)部分。本部分因为内容太多,因此分成几部分发布。这是第二部分。

2024-09-01 10:54:36 1914

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U5:动态规划(一)

原书第五单元DP(动态规划)部分。本部分因为内容太多,因此分成几部分发布。这是第一部分。

2024-09-01 10:44:39 1084

原创 LeCun认为MPC比强化学习更好?一篇文章对比MPC与强化学习

本文从技术角度详细分析了LeCun关于近日发表的“相比于强化学习(RL),我确实更喜欢模型预测控制(MPC)。”的说法,就MPC与强化学习哪个更好提出了自己的看法。笔者认为,MPC与强化学习各有优劣。但是,在方法的灵活性、可扩展性等方面强于MPC,更适合用于解决实际情景中的复杂任务。

2024-08-28 16:10:29 2598

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U4:TD(时序差分)

本博客介绍了TD(Temporal Difference)Learning。TD Learning是一种无模型、Indirect的强化学习方法。TD Learning最大的特点就是bootstrapping,即利用过去的value estimates来更新当前的值函数。TD Learning相较于MC,最大的好处就是不用等到一个episode结束才更新。相反,TD Learning可以通过不完整的episode来更新value function,或者在连续任务中更新(连续任务中没有episode的概念)。

2024-08-13 11:19:56 535

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U3:蒙特卡罗学习

这篇博客主要介绍一种Model-free的Indirect RL方法——Monte Carlo Learning。这里的Model-free指的是Monte Carlo Learning不需要环境的模型,而是通过和环境的交互来学习。Indirect RL指的是Monte Carlo Learning不直接优化策略,而是通过求解Bellman方程来学习策略。

2024-08-10 11:22:18 552

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》系列读书笔记

该书由清华大学李升波教授撰写的,主要面向工业控制领域的研究者和工程师,曾获得2024年度Springer中国新发展奖(China New Development Awards)。全书按照原理剖析、主流算法、典型示例的架构,系统地介绍了用于动态系统决策与控制的强化学习方法。全书共分为11章,内容涵盖了强化学习的基本概念、蒙特卡洛法、时序差分法、动态规划法、函数近似法、策略梯度法、近似动态规划、状态约束的处理和深度强化学习等知识点。我的系列博客将对该书进行系统的学习和总结,希望能够对读者有所帮助。

2024-08-07 20:28:04 826

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U2:强化学习基本概念

强化学习基本概念。

2024-08-04 18:39:38 1011

原创 清华大学李升波教授强化学习书籍《Reinforcement Learning for Sequential Decision and Optimal Control》读书笔记——U1:强化学习入门

本单元作为Reinforcement Learning for Sequential Decision and Optimal Control这本书第一单元的读书笔记,算是一个入门的笔记。介绍了强化学习的历史渊源和面临的挑战。这个单元的内容以介绍性的为主,因此就简单写写。

2024-08-04 11:56:18 247

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除