Deep RL_Nemo555的博客-优快云博客

Deep RL

关注

文章平均质量分 85

关注数：文章数：27 文章阅读量：55874 文章收藏量：410

作者: Nemo555

分享、记录、输出所学的知识。本科SCUTer自动化，复旦计算机应用硕士，RLer

展开

每天一个RL基础理论(10)—Exploration in Bandits

在最简易的问题规模下，经典的探索与利用策略Upper Confidence Bound和Linear UCB在Bandits问题下的理论分析、推导、结果。为Tabular MDP的exploration问题做铺垫

原创 2021-12-19 03:02:15 · 662 阅读 · 0 评论
每天一个RL基础理论(9)——Fitted Q-iteration

Fitted Q-iteration的理论分析，给出了value-based强化算法的性能上界

原创 2021-12-14 22:21:33 · 2279 阅读 · 0 评论
每天一个RL基础理论(8)——Linear Bellman Completeness

在状态动作空间很大时，LSVI算法对应的样本复杂度

原创 2021-12-08 22:00:33 · 1308 阅读 · 0 评论
每天一个RL基础理论(7)——总结篇

总结了经典强化算法Value Iteration+Policy Iteration的基础理论结果，即收敛性证明、收敛速度、计算复杂度、样本复杂度等

原创 2021-12-02 16:02:57 · 789 阅读 · 0 评论
每天一个RL基础理论(6)——Sample Complexity(下）

Sample Complexity在unknown转移矩阵，使用VI算法的完整推导

原创 2021-11-26 16:15:47 · 979 阅读 · 0 评论
每天一个RL基础理论(5)——Sample Complexity(中）

样本复杂度的完整分析——均匀交互假设下(generative model)，使用VI算法得到一个near optimal的policy，sample complexity bound是多少？

原创 2021-11-17 21:31:22 · 1435 阅读 · 0 评论
每天一个RL基础理论(4)——Sample Complexity(上）

在经典的MDP setting中去分析一个Sample Complexity Bound，回答需要多少样本才能学习到near-optimal的policy这个问题。Sample complexity 上集

原创 2021-11-10 21:55:53 · 1102 阅读 · 0 评论
每天一个RL基础理论(3)——Computational Complexity

在infinite horizon discounted MDP的设定下，对deterministic & stationary的policy，给出两类经典算法value iteration以及policy iteration的计算复杂度

原创 2021-11-08 21:49:00 · 889 阅读 · 0 评论
每天一个RL基础理论(2)——VI&PI

在infinite discounted MDP已知的情况下，关于如何找到最优策略的两个基础理论Value Iteration & Policy Iteration及其相关证明

原创 2021-11-06 02:58:33 · 1353 阅读 · 0 评论
每天一个RL基础理论(1)——Bellman Optimality

在infinite horizon discounted的MDP下，deterministic&stationary的optimal policy存在性证明，和Bellman Optimality的两个性质的证明

原创 2021-11-03 02:17:48 · 901 阅读 · 0 评论
On-Policy 深度强化的训练经验——Google Brain

谷歌大脑On-Policy的实验技巧大推荐！ICLR2021高分论文。

原创 2021-05-13 21:19:09 · 822 阅读 · 0 评论
离线强化学习-4 DP-based方法

解决Offline RL中使用Dynamics Programming方法学习Q函数时遇到的问题。主要介绍策略约束、基于不确定性的两大类方法。

原创 2021-05-08 20:25:58 · 728 阅读 · 0 评论
离线强化学习-3 对偶性的应用

将对偶性理论用在Offline RL中，比如Linear Program Duality、Lagrange Duality、Fenchel Duality

原创 2021-05-05 21:04:30 · 581 阅读 · 5 评论
离线强化学习-2重要性采样和Duality介绍（劝退版）

详解基于重要性采样和Convex Duality的Offline RL两大类方法，并简洁直观地阐述了共轭与对偶性。

原创 2021-05-03 17:57:13 · 1131 阅读 · 3 评论
离线强化学习-1（背景介绍）

总结了一波Model-free RL的方法与问题，引申出离线强化学习的问题设定与背景

原创 2021-04-29 17:35:45 · 2111 阅读 · 0 评论
OpenAI Gym--Classical Control 环境详解

Gym中Classic Control的环境详细信息以及gym的基本使用

原创 2020-05-31 22:42:17 · 4252 阅读 · 1 评论
深度强化学习CS285-Lec18 Meta-Learning in RL

一个介绍Meta-Learning的Tutorial，重点说Meta-RL的基本方法。大致分以下三类：Black-Block Based、Optimization Based、Inference Based。

原创 2020-03-24 22:00:36 · 774 阅读 · 0 评论
深度强化学习CS285-Lec17 Distributed RL

主要介绍了RL算法的分布式系统实现。如DQN、GORILA、A3C、IMPALA、Ape-X、R2D3如QT-Opt、Alpha-Zero，以及一个开源框架Ray

原创 2020-03-20 19:45:16 · 1521 阅读 · 2 评论
深度强化学习CS285-Lec16 Transfer Learning in RL

主要介绍了RL中的Transfer Learning，分三方面：1. 一个task transfer 到另一个new task的Forward Transfer2. 多个tasks transfer 到一个new task的Multi-task Transfer3. Meta Learning（稍后介绍

原创 2020-03-19 23:30:32 · 1671 阅读 · 0 评论
深度强化学习CS285 lec13-lec15 （下）

介绍了逆强化学弟IRL的背景，以及一些基础算法如MERL、Guided Cost Learning、GAIL、GAIRL～

原创 2020-03-13 00:44:02 · 1227 阅读 · 0 评论
深度强化学习CS285 lec13-lec15 （中）

介绍一个Soft Optimality如何进行参数的Learning，并说明一系列Soft的算法，即如何将Soft Optimality加入到Policy Gradient、Q-learning以及Actor-Critic中！

原创 2020-03-09 22:40:12 · 631 阅读 · 0 评论
深度强化学习CS285 lec13-lec15 （上）

重点说明Deep RL中的Soft Optimality，说明前介绍了概率图PGM中的基础知识以及HMM一个具体例子，将HMM与强化中的Soft Optimality进行对比。

原创 2020-03-03 00:13:15 · 627 阅读 · 0 评论
深度强化学习CS285 lec13-lec15 基础知识：变分推断VI与GAN

总结之前的Lec的点，为之后的Lec总结打个基础。主要说了信息论的一些基本概念、变分推断、GAN的思想。

原创 2020-02-29 14:49:39 · 1227 阅读 · 0 评论
深度强化学习CS285 lec10-lec12（记得看LQR基础知识）

CS285PPT中主要介绍MBRL(Model-Based RL)：最优控制与规划、Model-Based RL Without Policy、MBRL With Policy Learning。

原创 2020-02-16 23:35:56 · 2295 阅读 · 3 评论
LQR,iLQR,DDP控制论经典算法（MBRL基础知识）

介绍LQR，iLQR，DDP前置知识，然后把Model-Based RL分成Optimal Control、Learn Dynamics Model、Learn Policy With Dynamics Model三个部分整理逻辑链条，最后总结一下各模块的大致功能与作用。

原创 2020-02-13 19:16:07 · 19915 阅读 · 13 评论
深度强化学习CS285 lec5-lec9（超长预警）

根据最新UCB的CS285PPT，整合自己的理解，介绍了策略梯度PG、Actor-Critic、Value-based和Q值迭代这四种类型的single-agent RL算法。

原创 2020-02-08 21:36:50 · 2267 阅读 · 0 评论
深度强化学习 CS285 le1-le4学习感悟

深度强化学习CS285 le1-le4 学习感悟

原创 2020-01-31 02:27:08 · 2417 阅读 · 3 评论

Deep RL

作者: Nemo555

每天一个RL基础理论(10)—Exploration in Bandits

每天一个RL基础理论(9)——Fitted Q-iteration

每天一个RL基础理论(8)——Linear Bellman Completeness

每天一个RL基础理论(7)——总结篇

每天一个RL基础理论(6)——Sample Complexity(下）

每天一个RL基础理论(5)——Sample Complexity(中）

每天一个RL基础理论(4)——Sample Complexity(上）

每天一个RL基础理论(3)——Computational Complexity

每天一个RL基础理论(2)——VI&PI

每天一个RL基础理论(1)——Bellman Optimality

On-Policy 深度强化的训练经验——Google Brain

离线强化学习-4 DP-based方法

离线强化学习-3 对偶性的应用

离线强化学习-2重要性采样和Duality介绍（劝退版）

离线强化学习-1（背景介绍）

OpenAI Gym--Classical Control 环境详解

深度强化学习CS285-Lec18 Meta-Learning in RL

深度强化学习CS285-Lec17 Distributed RL

深度强化学习CS285-Lec16 Transfer Learning in RL

深度强化学习CS285 lec13-lec15 （下）

深度强化学习CS285 lec13-lec15 （中）

深度强化学习CS285 lec13-lec15 （上）

深度强化学习CS285 lec13-lec15 基础知识：变分推断VI与GAN

深度强化学习CS285 lec10-lec12（记得看LQR基础知识）

LQR,iLQR,DDP控制论经典算法（MBRL基础知识）

深度强化学习CS285 lec5-lec9（超长预警）

深度强化学习 CS285 le1-le4学习感悟