强化学习 学习资料整理(持续更新)

关于强化学习,比较经典的书当然是 Richard Sutton 的 Reinforcement Learning: An Introduction. 下面的资料大部分也是关于这本书的读书笔记和相关课程及代码。

教学视频系列:

《强化学习纲要》十课

代码实现系列:

tensorflow视频教程

【北京大学】Tensorflow2.0

强化学习代码实现

Reinforcement Q-Learning from Scratch in Python with OpenAI Gym

用于强化学习的自动驾驶仿真场景

highway-env

读书笔记系列:

这里主要包括Alvin 在知乎上的读书笔记,比较详细清楚。

前言

序言 - Alvin的文章 - 知乎

Chapter 4

4.6 广义策略迭代 - Alvin的文章 - 知乎

Chapter 8:

8.1 模型和规划 - Alvin的文章 - 知乎
8.2 Dyna:融合规划,决策和学习 - Alvin的文章 - 知乎
8.3 当模型错了 - Alvin的文章 - 知乎
8.4 优先遍历 - Alvin的文章 - 知乎
8.5 期望更新和采样更新 - Alvin的文章 - 知乎
8.7 实时动态规划 - Alvin的文章 - 知乎
8.8 决策时规划 - Alvin的文章 - 知乎
8.9 启发式搜索 - Alvin的文章 - 知乎
8.10 rollout算法 - Alvin的文章 - 知乎
8.11 蒙特卡洛树搜索 - Alvin的文章 - 知乎
8.12 本章小结 - Alvin的文章 - 知乎
8.13 第一部分总结 - Alvin的文章 - 知乎

Part 2:序言 - Alvin的文章 - 知乎

Chpater 9

9.1 值函数近似 - Alvin的文章 - 知乎
9.2 预测目标(value error, VE) - Alvin的文章 - 知乎
9.3 随机梯度和半梯度方法 - Alvin的文章 - 知乎
9.4 线性方法 - Alvin的文章 - 知乎
9.5 线性方法的特征构造 - Alvin的文章 - 知乎
9.6 手动选择步长参数 - Alvin的文章 - 知乎
9.7 非线性函数近似:人工神经网络 - Alvin的文章 - 知乎
9.8 最小二乘TD算法(LSTD) - Alvin的文章 - 知乎
9.9 基于记忆的函数近似 - Alvin的文章 - 知乎
9.11 深入了解在策略学习:兴趣和强调 - Alvin的文章 - 知乎

Chapter 10

10.1 episode半梯度控制 - Alvin的文章 - 知乎
10.2 半梯度n步Sarsa - Alvin的文章 - 知乎
10.3 平均回报:一种新的针对连续任务的问题形式化方法 - Alvin的文章 - 知乎
10.4 Deprecating the discounted setting - Alvin的文章 - 知乎
10.5 微分半梯度n步Sarsa算法 - Alvin的文章 - 知乎
10.6 本章小结 - Alvin的文章 - 知乎

Chapter 11

11.1 半梯度方法 - Alvin的文章 - 知乎
11.2 离策略发散举例 - Alvin的文章 - 知乎
11.3 死亡三角 - Alvin的文章 - 知乎
11.4 线性值函数几何学 - Alvin的文章 - 知乎
11.5 贝尔曼误差中的梯度下降 - Alvin的文章 - 知乎
11.6 贝尔曼误差是不可学习的 - Alvin的文章 - 知乎
11.7 梯度TD方法 - Alvin的文章 - 知乎
11.8 Emphatic-TD方法 - Alvin的文章 - 知乎
11.9 减小方差 - Alvin的文章 - 知乎
11.10 总结 - Alvin的文章 - 知乎

Chapter 12

第12张 资格迹:序言 - Alvin的文章 - 知乎
12.1 lambda-回报 - Alvin的文章 - 知乎
12.2 TD(\lambda) - Alvin的文章 - 知乎
12.3 n步截断回报算法 - Alvin的文章 - 知乎

Chapter 13

第13章:序言 - Alvin的文章 - 知乎
13.1 策略近似和它的优势 - Alvin的文章 - 知乎
13.2 策略梯度理论 - Alvin的文章 - 知乎
13.3 REINFORCE:蒙特卡洛策略梯度 - Alvin的文章 - 知乎
13.4 有baseline的REINFORCE算法 - Alvin的文章 - 知乎
13.5 行为-评判器方法 - Alvin的文章 - 知乎
13.6 连续问题中的策略梯度 - Alvin的文章 - 知乎
13.7 针对连续动作空间的策略参数化 - Alvin的文章 - 知乎
13.8 总结 - Alvin的文章 - 知乎

参考论文:

  1. Solving Large POMDPs by RTDP
  2. Deep Residual Reinforcement Learning

相关博客

策略梯度方法总结
Going Deeper Into Reinforcement Learning: Fundamentals of Policy Gradients

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值