- 博客(66)
- 资源 (3)
- 收藏
- 关注
原创 每天一个RL基础理论(10)—Exploration in Bandits
在最简易的问题规模下,经典的探索与利用策略Upper Confidence Bound和Linear UCB在Bandits问题下的理论分析、推导、结果。为Tabular MDP的exploration问题做铺垫
2021-12-19 03:02:15
601
原创 每天一个RL基础理论(9)——Fitted Q-iteration
Fitted Q-iteration的理论分析,给出了value-based强化算法的性能上界
2021-12-14 22:21:33
2185
原创 每天一个RL基础理论(7)——总结篇
总结了经典强化算法Value Iteration+Policy Iteration的基础理论结果,即收敛性证明、收敛速度、计算复杂度、样本复杂度等
2021-12-02 16:02:57
765
原创 每天一个RL基础理论(6)——Sample Complexity(下)
Sample Complexity在unknown转移矩阵,使用VI算法的完整推导
2021-11-26 16:15:47
958
原创 每天一个RL基础理论(5)——Sample Complexity(中)
样本复杂度的完整分析——均匀交互假设下(generative model),使用VI算法得到一个near optimal的policy,sample complexity bound是多少?
2021-11-17 21:31:22
1382
原创 每天一个RL基础理论(4)——Sample Complexity(上)
在经典的MDP setting中去分析一个Sample Complexity Bound,回答需要多少样本才能学习到near-optimal的policy这个问题。Sample complexity 上集
2021-11-10 21:55:53
1082
原创 每天一个RL基础理论(3)——Computational Complexity
在infinite horizon discounted MDP的设定下,对deterministic & stationary的policy,给出两类经典算法value iteration以及policy iteration的计算复杂度
2021-11-08 21:49:00
861
原创 每天一个RL基础理论(2)——VI&PI
在infinite discounted MDP已知的情况下,关于如何找到最优策略的两个基础理论Value Iteration & Policy Iteration及其相关证明
2021-11-06 02:58:33
1252
原创 每天一个RL基础理论(1)——Bellman Optimality
在infinite horizon discounted的MDP下,deterministic&stationary的optimal policy存在性证明,和Bellman Optimality的两个性质的证明
2021-11-03 02:17:48
861
原创 离线强化学习-4 DP-based方法
解决Offline RL中使用Dynamics Programming方法学习Q函数时遇到的问题。主要介绍策略约束、基于不确定性的两大类方法。
2021-05-08 20:25:58
696
原创 离线强化学习-3 对偶性的应用
将对偶性理论用在Offline RL中,比如Linear Program Duality、Lagrange Duality、Fenchel Duality
2021-05-05 21:04:30
559
5
原创 离线强化学习-2重要性采样和Duality介绍(劝退版)
详解基于重要性采样和Convex Duality的Offline RL两大类方法,并简洁直观地阐述了共轭与对偶性。
2021-05-03 17:57:13
1107
3
原创 机器学习中的外推问题(OOD上,硬核慎点)
Out of Distribution Generalization in Machine Learning。对机器学习外推的理论解析文章,侧重直觉分析。
2021-04-22 00:26:39
11710
3
原创 科研工具流1——Zotero管理文献
Mac + Safari + Zotero管理文献。总结了一下Zotero的初步介绍,以及具体工作流。具体配置操作可参见青柠学术
2021-03-06 17:17:43
4666
1
原创 TuRBO(2019NIPS)—贝叶斯优化的应用
贝叶斯优化的一个应用例子讲解,来自一篇2019NIPS的论文Scalable Global Optimization via Local Bayesian Optimization ,简记TuRBO
2021-03-03 21:42:03
1669
原创 贝叶斯优化(深度剖析)
一文超详细地贝叶斯优化仔细剖开,概念、公式、理论与应用直通车。下一篇应用2019NIPS的一篇论文,作为贝叶斯优化的应用解读
2021-03-02 16:28:05
9213
1
原创 Paper-10 精读MetaMimic (2019 DeepMind)
将Meta-Learning引入到DeepMImic中,文章值得阅读的应该是Related Work这部分了= =
2020-06-23 16:58:15
384
原创 Paper-9 精读VAIL (2019 ICLR)
与之前精读DeepMimic、GAIL、GCL、AIRL进行了对比,提出了一种利用Mutual Information 对GAN进行正则化的方法,并在IL、IRL的背景下提供了一定的理论分析与充足实验验证。
2020-06-20 23:37:54
1042
原创 Paper-8 泛读 DeepMimic (2018 ACL)
具体介绍了DeepMimic,比较经典的Paper,主要是Imitation Objective与Task Objective结合的Reward,建模成RL问题。
2020-06-17 18:53:27
740
原创 Paper-7 精读AIRL Learn Robust Reward (2018 ICLR)
与前面的Paper,GAIL、GCL、Inverse RL进行对比的较为前沿的工作。Learning Robust Rwards With Adversarial Inverse RL
2020-06-15 22:24:17
1959
原创 Paper-6 精读 Deep Visuomotor Policies (2016 JMLR)
超级详细地解读一篇2016 JMLR的期刊文章:Deep Visuomotor Policies。涉及到Guided Policy Search、Trajectory Optimization以及Policy Supervision,最后是一个关于BADMM的大框架。
2020-06-09 14:52:22
1088
1
原创 Paper-5 总结 GAN-IRL-Energy Model之间的联系 2016年
一篇总结性的Paper,涉及到精读过的Paper:Generative Adversarial Imitation Learning(GAIL)、Guided Cost Learning、Inverse RL与GAN的联系
2020-06-06 16:34:06
859
原创 Paper-4 精读 GCL(2016 ICML)
精读2016 ICML Chelsea Finn的Guided Cost Learning,与GAIL有异曲同工之妙,都有对抗思想的渗透。
2020-06-05 21:44:05
1709
2
原创 Paper-3 精读 Learn NN Policies with GPS under Unknown Dynamics(2014 NIPS)
精读Sergey Levine 2014 NIPS的的Paper:Learning Neural Network Policies with Guided Policy Search under Unknown Dynamics。将GPS的Setting从Known Dynamics变成Unknown Dynamics
2020-06-05 16:33:10
462
3
原创 OpenAI Gym--Classical Control 环境详解
Gym中Classic Control的环境详细信息以及gym的基本使用
2020-05-31 22:42:17
4166
1
原创 Paper-1 精读GAIL 2016 NIPS
Generative Adversarial Imitation Learning 2016 NIPS Paper精读,结合GAN思想进行指导的Imitation Learning
2020-05-31 16:30:25
943
matlab求解最优化线性规划问题代码以及思维导图
2018-03-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人