
Deep RL
文章平均质量分 85
Nemo555
分享、记录、输出所学的知识。本科SCUTer自动化,复旦计算机应用硕士,RLer
展开
-
每天一个RL基础理论(10)—Exploration in Bandits
在最简易的问题规模下,经典的探索与利用策略Upper Confidence Bound和Linear UCB在Bandits问题下的理论分析、推导、结果。为Tabular MDP的exploration问题做铺垫原创 2021-12-19 03:02:15 · 662 阅读 · 0 评论 -
每天一个RL基础理论(9)——Fitted Q-iteration
Fitted Q-iteration的理论分析,给出了value-based强化算法的性能上界原创 2021-12-14 22:21:33 · 2279 阅读 · 0 评论 -
每天一个RL基础理论(8)——Linear Bellman Completeness
在状态动作空间很大时,LSVI算法对应的样本复杂度原创 2021-12-08 22:00:33 · 1308 阅读 · 0 评论 -
每天一个RL基础理论(7)——总结篇
总结了经典强化算法Value Iteration+Policy Iteration的基础理论结果,即收敛性证明、收敛速度、计算复杂度、样本复杂度等原创 2021-12-02 16:02:57 · 789 阅读 · 0 评论 -
每天一个RL基础理论(6)——Sample Complexity(下)
Sample Complexity在unknown转移矩阵,使用VI算法的完整推导原创 2021-11-26 16:15:47 · 979 阅读 · 0 评论 -
每天一个RL基础理论(5)——Sample Complexity(中)
样本复杂度的完整分析——均匀交互假设下(generative model),使用VI算法得到一个near optimal的policy,sample complexity bound是多少?原创 2021-11-17 21:31:22 · 1435 阅读 · 0 评论 -
每天一个RL基础理论(4)——Sample Complexity(上)
在经典的MDP setting中去分析一个Sample Complexity Bound,回答需要多少样本才能学习到near-optimal的policy这个问题。Sample complexity 上集原创 2021-11-10 21:55:53 · 1102 阅读 · 0 评论 -
每天一个RL基础理论(3)——Computational Complexity
在infinite horizon discounted MDP的设定下,对deterministic & stationary的policy,给出两类经典算法value iteration以及policy iteration的计算复杂度原创 2021-11-08 21:49:00 · 889 阅读 · 0 评论 -
每天一个RL基础理论(2)——VI&PI
在infinite discounted MDP已知的情况下,关于如何找到最优策略的两个基础理论Value Iteration & Policy Iteration及其相关证明原创 2021-11-06 02:58:33 · 1353 阅读 · 0 评论 -
每天一个RL基础理论(1)——Bellman Optimality
在infinite horizon discounted的MDP下,deterministic&stationary的optimal policy存在性证明,和Bellman Optimality的两个性质的证明原创 2021-11-03 02:17:48 · 901 阅读 · 0 评论 -
On-Policy 深度强化的训练经验——Google Brain
谷歌大脑On-Policy的实验技巧大推荐!ICLR2021高分论文。原创 2021-05-13 21:19:09 · 822 阅读 · 0 评论 -
离线强化学习-4 DP-based方法
解决Offline RL中使用Dynamics Programming方法学习Q函数时遇到的问题。主要介绍策略约束、基于不确定性的两大类方法。原创 2021-05-08 20:25:58 · 728 阅读 · 0 评论 -
离线强化学习-3 对偶性的应用
将对偶性理论用在Offline RL中,比如Linear Program Duality、Lagrange Duality、Fenchel Duality原创 2021-05-05 21:04:30 · 581 阅读 · 5 评论 -
离线强化学习-2重要性采样和Duality介绍(劝退版)
详解基于重要性采样和Convex Duality的Offline RL两大类方法,并简洁直观地阐述了共轭与对偶性。原创 2021-05-03 17:57:13 · 1131 阅读 · 3 评论 -
离线强化学习-1(背景介绍)
总结了一波Model-free RL的方法与问题,引申出离线强化学习的问题设定与背景原创 2021-04-29 17:35:45 · 2111 阅读 · 0 评论 -
OpenAI Gym--Classical Control 环境详解
Gym中Classic Control的环境详细信息以及gym的基本使用原创 2020-05-31 22:42:17 · 4252 阅读 · 1 评论 -
深度强化学习CS285-Lec18 Meta-Learning in RL
一个介绍Meta-Learning的Tutorial,重点说Meta-RL的基本方法。大致分以下三类:Black-Block Based、Optimization Based、Inference Based。原创 2020-03-24 22:00:36 · 774 阅读 · 0 评论 -
深度强化学习CS285-Lec17 Distributed RL
主要介绍了RL算法的分布式系统实现。如DQN、GORILA、A3C、IMPALA、Ape-X、R2D3如QT-Opt、Alpha-Zero,以及一个开源框架Ray原创 2020-03-20 19:45:16 · 1521 阅读 · 2 评论 -
深度强化学习CS285-Lec16 Transfer Learning in RL
主要介绍了RL中的Transfer Learning,分三方面:1. 一个task transfer 到另一个new task的Forward Transfer2. 多个tasks transfer 到一个new task的Multi-task Transfer3. Meta Learning(稍后介绍原创 2020-03-19 23:30:32 · 1671 阅读 · 0 评论 -
深度强化学习CS285 lec13-lec15 (下)
介绍了逆强化学弟IRL的背景,以及一些基础算法如MERL、Guided Cost Learning、GAIL、GAIRL~原创 2020-03-13 00:44:02 · 1227 阅读 · 0 评论 -
深度强化学习CS285 lec13-lec15 (中)
介绍一个Soft Optimality如何进行参数的Learning,并说明一系列Soft的算法,即如何将Soft Optimality加入到Policy Gradient、Q-learning以及Actor-Critic中!原创 2020-03-09 22:40:12 · 631 阅读 · 0 评论 -
深度强化学习CS285 lec13-lec15 (上)
重点说明Deep RL中的Soft Optimality,说明前介绍了概率图PGM中的基础知识以及HMM一个具体例子,将HMM与强化中的Soft Optimality进行对比。原创 2020-03-03 00:13:15 · 627 阅读 · 0 评论 -
深度强化学习CS285 lec13-lec15 基础知识:变分推断VI与GAN
总结之前的Lec的点,为之后的Lec总结打个基础。主要说了信息论的一些基本概念、变分推断、GAN的思想。原创 2020-02-29 14:49:39 · 1227 阅读 · 0 评论 -
深度强化学习CS285 lec10-lec12(记得看LQR基础知识)
CS285PPT中主要介绍MBRL(Model-Based RL):最优控制与规划、Model-Based RL Without Policy、MBRL With Policy Learning。原创 2020-02-16 23:35:56 · 2295 阅读 · 3 评论 -
LQR,iLQR,DDP控制论经典算法(MBRL基础知识)
介绍LQR,iLQR,DDP前置知识,然后把Model-Based RL分成Optimal Control、Learn Dynamics Model、Learn Policy With Dynamics Model三个部分整理逻辑链条,最后总结一下各模块的大致功能与作用。原创 2020-02-13 19:16:07 · 19915 阅读 · 13 评论 -
深度强化学习CS285 lec5-lec9(超长预警)
根据最新UCB的CS285PPT,整合自己的理解,介绍了策略梯度PG、Actor-Critic、Value-based和Q值迭代这四种类型的single-agent RL算法。原创 2020-02-08 21:36:50 · 2267 阅读 · 0 评论 -
深度强化学习 CS285 le1-le4学习感悟
深度强化学习CS285 le1-le4 学习感悟原创 2020-01-31 02:27:08 · 2417 阅读 · 3 评论