探究强化学习之美 | 清华李升波教授强化学习经典教材粉丝福利送（书籍&源码）...

最新推荐文章于 2025-02-20 09:36:54 发布

转载最新推荐文章于 2025-02-20 09:36:54 发布 · 546 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247596564&idx=1&sn=deab18287bf1713a8770f46735f12fc0&chksm=cf9602ae08b2042e7965f8929c2481e4ac4c2d179804b472baee30f1105738e40b5967e6f5f0&scene=126&sessionid=0

清华大学李升波教授撰写的强化学习经典教材《Reinforcement Learning for Sequential Decision and Optimal Control》，曾于2023年4月首次由Springer出版社出版，近期该书的全套源代码亦由Springer上线，正式与读者见面了！

书籍及源代码下载网站：https://link.springer.com/book/10.1007/978-981-19-7784-8

自动驾驶之心粉丝福利！扫码参与价值一千元抽奖！

图书简介

该书主要面向工业控制领域的研究者和工程师撰写，按照原理剖析、主流算法、典型示例的架构，系统地介绍了用于动态系统决策与控制的强化学习方法。全书共分为11章，内容涵盖了强化学习的基本概念、蒙特卡洛法、时序差分法、动态规划法、函数近似法、策略梯度法、近似动态规划、状态约束的处理和深度强化学习等知识点。下面简要介绍各章的主要内容：

第1章介绍强化学习（Reinforcement Learning, RL）概况，包括发展历史、知名学者、典型应用以及主要挑战等。
第2章介绍RL的基础知识，包括定义概念、自洽条件、最优性原理与问题架构等。
第3章介绍无模型RL的蒙特卡洛法，包括Monte Carlo估计、On-policy/Off-policy、重要性采样等。
第4章介绍无模型RL的时序差分法，包括它衍生的Sarsa、Q-learning、Expected Sarsa等算法。
第5章介绍带模型RL的动态规划法，包括策略迭代、值迭代、通用迭代架构与收敛性证明等。
第6章介绍间接型RL的函数近似法，包括常用近似函数、值函数近似、策略函数近似以及所衍生的Actor-Critic架构等。
第7章介绍直接型RL的策略梯度法，包括On-policy gradient、Off-policy gradient、它们的代价函数与优化算法等。
第8章介绍带模型的近似动态规划（ADP）方法，包括无穷时域的ADP、有限时域的ADP、ADP与MPC的联系与区别等。
第9章探讨了状态约束的处理手段，它与求解可行性、策略安全性之间的关系，以及Actor-Critic-Scenery三要素求解架构等。
第10章介绍深度强化学习（DRL），即以神经网络为载体的RL，包括神经网络的原理与训练，深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、SAC、DSAC等典型深度化算法。
第11章介绍RL的各类拾遗，包括鲁棒性、POMDP、多智能体、元学习、逆强化学习、离线强化学习以及训练框架与平台等。