关于强化学习,比较经典的书当然是 Richard Sutton 的 Reinforcement Learning: An Introduction. 下面的资料大部分也是关于这本书的读书笔记和相关课程及代码。
教学视频系列:
代码实现系列:
tensorflow视频教程
强化学习代码实现
Reinforcement Q-Learning from Scratch in Python with OpenAI Gym
用于强化学习的自动驾驶仿真场景
highway-env
读书笔记系列:
这里主要包括Alvin 在知乎上的读书笔记,比较详细清楚。
前言
Chapter 4
Chapter 8:
8.1 模型和规划 - Alvin的文章 - 知乎
8.2 Dyna:融合规划,决策和学习 - Alvin的文章 - 知乎
8.3 当模型错了 - Alvin的文章 - 知乎
8.4 优先遍历 - Alvin的文章 - 知乎
8.5 期望更新和采样更新 - Alvin的文章 - 知乎
8.7 实时动态规划 - Alvin的文章 - 知乎
8.8 决策时规划 - Alvin的文章 - 知乎
8.9 启发式搜索 - Alvin的文章 - 知乎
8.10 rollout算法 - Alvin的文章 - 知乎
8.11 蒙特卡洛树搜索 - Alvin的文章 - 知乎
8.12 本章小结 - Alvin的文章 - 知乎
8.13 第一部分总结 - Alvin的文章 - 知乎
Part 2:序言 - Alvin的文章 - 知乎
Chpater 9
9.1 值函数近似 - Alvin的文章 - 知乎
9.2 预测目标(value error, VE) - Alvin的文章 - 知乎
9.3 随机梯度和半梯度方法 - Alvin的文章 - 知乎
9.4 线性方法 - Alvin的文章 - 知乎
9.5 线性方法的特征构造 - Alvin的文章 - 知乎
9.6 手动选择步长参数 - Alvin的文章 - 知乎
9.7 非线性函数近似:人工神经网络 - Alvin的文章 - 知乎
9.8 最小二乘TD算法(LSTD) - Alvin的文章 - 知乎
9.9 基于记忆的函数近似 - Alvin的文章 - 知乎
9.11 深入了解在策略学习:兴趣和强调 - Alvin的文章 - 知乎
Chapter 10
10.1 episode半梯度控制 - Alvin的文章 - 知乎
10.2 半梯度n步Sarsa - Alvin的文章 - 知乎
10.3 平均回报:一种新的针对连续任务的问题形式化方法 - Alvin的文章 - 知乎
10.4 Deprecating the discounted setting - Alvin的文章 - 知乎
10.5 微分半梯度n步Sarsa算法 - Alvin的文章 - 知乎
10.6 本章小结 - Alvin的文章 - 知乎
Chapter 11
11.1 半梯度方法 - Alvin的文章 - 知乎
11.2 离策略发散举例 - Alvin的文章 - 知乎
11.3 死亡三角 - Alvin的文章 - 知乎
11.4 线性值函数几何学 - Alvin的文章 - 知乎
11.5 贝尔曼误差中的梯度下降 - Alvin的文章 - 知乎
11.6 贝尔曼误差是不可学习的 - Alvin的文章 - 知乎
11.7 梯度TD方法 - Alvin的文章 - 知乎
11.8 Emphatic-TD方法 - Alvin的文章 - 知乎
11.9 减小方差 - Alvin的文章 - 知乎
11.10 总结 - Alvin的文章 - 知乎
Chapter 12
第12张 资格迹:序言 - Alvin的文章 - 知乎
12.1 lambda-回报 - Alvin的文章 - 知乎
12.2 TD(\lambda) - Alvin的文章 - 知乎
12.3 n步截断回报算法 - Alvin的文章 - 知乎
Chapter 13
第13章:序言 - Alvin的文章 - 知乎
13.1 策略近似和它的优势 - Alvin的文章 - 知乎
13.2 策略梯度理论 - Alvin的文章 - 知乎
13.3 REINFORCE:蒙特卡洛策略梯度 - Alvin的文章 - 知乎
13.4 有baseline的REINFORCE算法 - Alvin的文章 - 知乎
13.5 行为-评判器方法 - Alvin的文章 - 知乎
13.6 连续问题中的策略梯度 - Alvin的文章 - 知乎
13.7 针对连续动作空间的策略参数化 - Alvin的文章 - 知乎
13.8 总结 - Alvin的文章 - 知乎
参考论文:
相关博客
策略梯度方法总结
Going Deeper Into Reinforcement Learning: Fundamentals of Policy Gradients