探究强化学习之美 | 清华李升波教授强化学习经典教材粉丝福利送(书籍&源码)...

清华大学李升波教授撰写的强化学习经典教材《Reinforcement Learning for Sequential Decision and Optimal Control》,曾于2023年4月首次由Springer出版社出版,近期该书的全套源代码亦由Springer上线,正式与读者见面了!

书籍及源代码下载网站:https://link.springer.com/book/10.1007/978-981-19-7784-8

4d18ca19a2acd036c91ead6ce078c4c4.png

自动驾驶之心粉丝福利!扫码参与价值一千元抽奖!

8105d7c148a5b88d8cb1ef145060f537.png

图书简介

该书主要面向工业控制领域的研究者和工程师撰写,按照原理剖析、主流算法、典型示例的架构,系统地介绍了用于动态系统决策与控制的强化学习方法。全书共分为11章,内容涵盖了强化学习的基本概念、蒙特卡洛法、时序差分法、动态规划法、函数近似法、策略梯度法、近似动态规划、状态约束的处理和深度强化学习等知识点。下面简要介绍各章的主要内容:

  • 第1章介绍强化学习(Reinforcement Learning, RL)概况,包括发展历史、知名学者、典型应用以及主要挑战等。

  • 第2章介绍RL的基础知识,包括定义概念、自洽条件、最优性原理与问题架构等。

  • 第3章介绍无模型RL的蒙特卡洛法,包括Monte Carlo估计、On-policy/Off-policy、重要性采样等。

  • 第4章介绍无模型RL的时序差分法,包括它衍生的Sarsa、Q-learning、Expected Sarsa等算法。

  • 第5章介绍带模型RL的动态规划法,包括策略迭代、值迭代、通用迭代架构与收敛性证明等。

  • 第6章介绍间接型RL的函数近似法,包括常用近似函数、值函数近似、策略函数近似以及所衍生的Actor-Critic架构等。

  • 第7章介绍直接型RL的策略梯度法,包括On-policy gradient、Off-policy gradient、它们的代价函数与优化算法等。

  • 第8章介绍带模型的近似动态规划(ADP)方法,包括无穷时域的ADP、有限时域的ADP、ADP与MPC的联系与区别等。

  • 第9章探讨了状态约束的处理手段,它与求解可行性、策略安全性之间的关系,以及Actor-Critic-Scenery三要素求解架构等。

  • 第10章介绍深度强化学习(DRL),即以神经网络为载体的RL,包括神经网络的原理与训练,深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、SAC、DSAC等典型深度化算法。

  • 第11章介绍RL的各类拾遗,包括鲁棒性、POMDP、多智能体、元学习、逆强化学习、离线强化学习以及训练框架与平台等。

课程配套资源介绍

配套课程PPT——百度、知乎搜索“强化学习与控制”。

微信公众号——微信搜索“智能驾驶课题组”

课程配套代码——为了便于工程人员与广大读者的学习,配套的源代码已经上传至书籍的Springer网站:https://link.springer.com/book/10.1007/978-981-19-7784-8,读者可自行下载辅助学习,下面简要说明代码的下载方式、安装要求以及相关例子。

(1)获取代码库:

点击上述网址的白色选项“Access Source Code”跳转至Github。进入Github后,点击绿色选项code,选择Download ZIP下载压缩文件;或使用Git将存储库克隆到本机。

(2)安装步骤

  1. 克隆代码库:

在本机终端或命令行界面中,执行命令以克隆代码库到本地:git clone https://github.com/Apress/Reinforcement-Learning-for-Sequential-Decision-and-Optimal-Control

  1. 环境配置:

安装Anaconda或Miniconda 在终端或命令行中输入命令配置环境:conda env create -n rlbook -f environment.yml

在终端或命令行中输入命令激活环境:conda activate rlbook 此后,打开每一个python文件运行main或plot的python脚本即可。

5c3ffa6c7902a2e35d6d763b2442e589.png

(3)源代码的介绍:

  • Chap_3_4_CleanRobot:第3章和第4章的清扫机器人示例代码。

  • Chap_5_AutoCar_GridRoad:第5章的自动驾驶汽车代码示例。

  • Chap_6_Actor_Critic_Algorithm:第6章的3类Actor-Critic(AC)算法代码。

  • Chap_7_AC_with_Baseline:第7章有/无baseline的AC算法性能对比。

  • Chap_8_Veh_Track_Ctrl:第8章的车辆跟踪控制示例代码。

  • Chap_9_Car_Brake_Control:第9章的紧急制动控制示例代码。

遵循以上步骤,您将成功设置和运行本代码库的示例代码,并开始探索强化学习的精彩世界!如果存在问题,欢迎大家加入GOPS用户交流群进行交流。

GOPS开源网站见: https://gops.readthedocs.io/

b1a7ba2ab52bbc50c9ed24b751b6aba2.png
内容概要:文章详细介绍了ETL工程师这一职业,解释了ETL(Extract-Transform-Load)的概念及其在数据处理中的重要性。ETL工程师负责将分散、不统一的数据整合为有价值的信息,支持企业的决策分析。日常工作包括数据整合、存储管理、挖掘设计支持和多维分析展现。文中强调了ETL工程师所需的核心技能,如数据库知识、ETL工具使用、编程能力、业务理解能力和问题解决能力。此外,还盘点了常见的ETL工具,包括开源工具如Kettle、XXL-JOB、Oozie、Azkaban和海豚调度,以及企业级工具如TASKCTL和Moia Comtrol。最后,文章探讨了ETL工程师的职业发展路径,从初级到高级的技术晋升,以及向大数据工程师或数据产品经理的横向发展,并提供了学习资源和求职技巧。 适合人群:对数据处理感兴趣,尤其是希望从事数据工程领域的人士,如数据分析师、数据科学家、软件工程师等。 使用场景及目标:①了解ETL工程师的职责和技能要求;②选择适合自己的ETL工具;③规划ETL工程师的职业发展路径;④获取相关的学习资源和求职建议。 其他说明:随着大数据技术的发展和企业数字化转型的加速,ETL工程师的需求不断增加,尤其是在金融、零售、制造、人工智能、物联网和区块链等领域。数据隐私保护法规的完善也使得ETL工程师在数据安全和合规处理方面的作用更加重要。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值