强化学习学习资料整理(持续更新)

原创已于 2022-05-31 09:05:59 修改 · 692 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #强化学习

于 2022-05-18 21:11:24 首次发布

本文是关于Richard Sutton的《强化学习：一本介绍》的深度解读，涵盖从策略迭代到函数近似，再到策略梯度的全面解析。内容包括广义策略迭代、Dyna算法、值函数近似、半梯度方法、策略近似等多个关键概念，并通过实例和代码解释了强化学习的核心算法。此外，还讨论了在模型错误、方差减小和连续动作空间中的策略优化等问题。

关于强化学习，比较经典的书当然是 Richard Sutton 的 Reinforcement Learning: An Introduction. 下面的资料大部分也是关于这本书的读书笔记和相关课程及代码。

教学视频系列：

《强化学习纲要》十课

代码实现系列：

tensorflow视频教程

【北京大学】Tensorflow2.0

强化学习代码实现

Reinforcement Q-Learning from Scratch in Python with OpenAI Gym

用于强化学习的自动驾驶仿真场景

highway-env

读书笔记系列：

这里主要包括Alvin 在知乎上的读书笔记，比较详细清楚。

前言

序言 - Alvin的文章 - 知乎

Chapter 4

4.6 广义策略迭代 - Alvin的文章 - 知乎

Chapter 8:

8.1 模型和规划 - Alvin的文章 - 知乎
 8.2 Dyna:融合规划，决策和学习 - Alvin的文章 - 知乎
 8.3 当模型错了 - Alvin的文章 - 知乎
 8.4 优先遍历 - Alvin的文章 - 知乎
 8.5 期望更新和采样更新 - Alvin的文章 - 知乎
 8.7 实时动态规划 - Alvin的文章 - 知乎
 8.8 决策时规划 - Alvin的文章 - 知乎
 8.9 启发式搜索 - Alvin的文章 - 知乎
 8.10 rollout算法 - Alvin的文章 - 知乎
 8.11 蒙特卡洛树搜索 - Alvin的文章 - 知乎
 8.12 本章小结 - Alvin的文章 - 知乎
 8.13 第一部分总结 - Alvin的文章 - 知乎

Part 2:序言 - Alvin的文章 - 知乎

Chpater 9

9.1 值函数近似 - Alvin的文章 - 知乎
 9.2 预测目标（value error, VE） - Alvin的文章 - 知乎
 9.3 随机梯度和半梯度方法 - Alvin的文章 - 知乎
 9.4 线性方法 - Alvin的文章 - 知乎
 9.5 线性方法的特征构造 - Alvin的文章 - 知乎
 9.6 手动选择步长参数 - Alvin的文章 - 知乎
 9.7 非线性函数近似：人工神经网络 - Alvin的文章 - 知乎
 9.8 最小二乘TD算法（LSTD） - Alvin的文章 - 知乎
 9.9 基于记忆的函数近似 - Alvin的文章 - 知乎
 9.11 深入了解在策略学习：兴趣和强调 - Alvin的文章 - 知乎

Chapter 10

10.1 episode半梯度控制 - Alvin的文章 - 知乎
 10.2 半梯度n步Sarsa - Alvin的文章 - 知乎
 10.3 平均回报：一种新的针对连续任务的问题形式化方法 - Alvin的文章 - 知乎
 10.4 Deprecating the discounted setting - Alvin的文章 - 知乎
 10.5 微分半梯度n步Sarsa算法 - Alvin的文章 - 知乎
 10.6 本章小结 - Alvin的文章 - 知乎

Chapter 11

11.1 半梯度方法 - Alvin的文章 - 知乎
 11.2 离策略发散举例 - Alvin的文章 - 知乎
 11.3 死亡三角 - Alvin的文章 - 知乎
 11.4 线性值函数几何学 - Alvin的文章 - 知乎
 11.5 贝尔曼误差中的梯度下降 - Alvin的文章 - 知乎
 11.6 贝尔曼误差是不可学习的 - Alvin的文章 - 知乎
 11.7 梯度TD方法 - Alvin的文章 - 知乎
 11.8 Emphatic-TD方法 - Alvin的文章 - 知乎
 11.9 减小方差 - Alvin的文章 - 知乎
 11.10 总结 - Alvin的文章 - 知乎

Chapter 12

第12张资格迹：序言 - Alvin的文章 - 知乎
 12.1 lambda-回报 - Alvin的文章 - 知乎
 12.2 TD(\lambda) - Alvin的文章 - 知乎
 12.3 n步截断回报算法 - Alvin的文章 - 知乎

Chapter 13

第13章：序言 - Alvin的文章 - 知乎
 13.1 策略近似和它的优势 - Alvin的文章 - 知乎
 13.2 策略梯度理论 - Alvin的文章 - 知乎
 13.3 REINFORCE：蒙特卡洛策略梯度 - Alvin的文章 - 知乎
 13.4 有baseline的REINFORCE算法 - Alvin的文章 - 知乎
 13.5 行为-评判器方法 - Alvin的文章 - 知乎
 13.6 连续问题中的策略梯度 - Alvin的文章 - 知乎
 13.7 针对连续动作空间的策略参数化 - Alvin的文章 - 知乎
 13.8 总结 - Alvin的文章 - 知乎

参考论文：

相关博客

策略梯度方法总结
 Going Deeper Into Reinforcement Learning: Fundamentals of Policy Gradients

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。