
离线强化学习系列博客
文章平均质量分 96
@RichardWang
CS PhD Student, 研究深度强化学习技术&优化理论&应用落地
展开
-
离线强化学习(Offline RL)系列6: (采样效率) OfflineRL中的样本选择策略(Sample Selection Strategies)
本文作者根据各种启发式优先级指标(6种指标)对比实验,指标侧重于离线学习设置的不同方面(包括**temporal-difference error, n-step return, self-imitation learning objective, pseudo-count, uncertainty, and likelihood**),结果表明(1)**non-uniform sampling**仍然是最有效的采样方式。(2)没有任何一个metric适合于所有场景。(3)仅通过改变采样方案来避免Offli原创 2022-08-15 09:44:41 · 2226 阅读 · 0 评论 -
离线强化学习(Offline RL)系列5: (模型参数) 离线强化学习中的超参数选择(Offline Hyperparameters Selection)
离线强化学习的数据集、数据集的特征、采样复杂性以及算法实现在之前的博客中已经阐述了很多,此外,对算法效率还有一个非常重要的影响特性:**超参数的选择**,本文作者就该过程进行了阐述,并提出了使用3种指标衡量选择效果,最后基于FQE算法实验,通过与常见的CRR等算法进行对比。原创 2022-05-03 18:05:22 · 2793 阅读 · 0 评论 -
离线强化学习(Offline RL)系列4:(数据集) 经验样本复杂度(Sample Complexity)对模型收敛的影响分析
本文首先解释了样本复杂性的基本概念,并就其在监督学习中的应用进行阐述,其次推理了强化学习中样本数的复杂度,最后就论文中通过样本复杂度对函数的过拟合影响等进行分析总结。原创 2022-04-20 22:35:09 · 3869 阅读 · 0 评论 -
离线强化学习(Offline RL)系列4:(数据集)Offline数据集特征及对离线强化学习算法的影响
作者首先提出了5种不同方式的数据集组成方式,并提出了 轨迹质量(Trajectory Quality, TQ) 和 状态-动作对覆盖率(Relative State-Action Coverage, SACo)两种指标,通过实验验证了不同的意义,随后提出了p performace(和百分比性能区分)进行了实验。原创 2022-04-19 17:16:14 · 4980 阅读 · 1 评论 -
离线强化学习(Offline RL)系列3: (算法篇) AWR(Advantage-Weighted Regression)算法详解与实现
Advantage-Weighted Regression (AWR),从名字上来看,就是Advantage版本的Reward-Weighted Regression (RWR)。AWR通过对RWR进行改进,包括两个标准的监督学习步骤,一个通过利用累积奖励的回归来训练价值函数基线,另一个通过加权回归来训练策略。核心思想是将策略优化过程看成是极大似然估计问题,在策略提升过程中,用优势函数进行权重似然估计。作者在Mujoco环境中和其他算法进行了比较,展现了算法的有效性。原创 2022-04-17 13:08:48 · 3344 阅读 · 1 评论 -
离线强化学习(Offline RL)系列7: (状态处理)Koopman-Q学习:通过动力学对称性的状态空间数据增强方法
当前的Offline RL算法过度拟合训练数据集,因此在部署到环境后,遇到分布的外泛化就表现不佳。目前解决OOD算法的方法也挺多。而本文作者通过学习 **Koopman潜在表示(Koopman latent representation)** 来解决这些限制,它是一种**model-free**方法,通过使用环境动态的对称性来Guide数据增强策略。然后用于在训练期间扩展原本静态的离线数据集;这构成了一个新颖的**数据增强框架** ,结果表明在几个基准离线强化学习任务和数据集(包括 D4RL、Metawor原创 2022-08-29 16:27:56 · 2060 阅读 · 2 评论 -
离线强化学习(Offline RL)系列7: (状态处理) OfflineRL中的状态空间的数据增强(7种增强方案)
现有的OfflineRL存在(1)对训练数据集过度拟合;(2)在部署时表现出对环境的分布外(OOD)泛化能力差的问题,本篇论文作者研究了在 **状态空间上执行数据增强** 的有效性,并通过7种不同的增强方案在OfflineRL环境环境中进行了实验。结果不表明使用 **S4RL(简单自我监督技术, Surprisingly Simple Self-Supervision in RL)** 可以显着改进离线机器人学习环境中的效果。......原创 2022-08-27 12:10:42 · 2269 阅读 · 0 评论 -
离线强化学习(Offline RL)系列3: (算法篇) AWAC算法详解与实现
在线强化学习方法运用到机器人领域遇到的最大的问题就是探索阶段所需要的成本太高,对于机器人来说,收集数据造价高并且很费时间,收集单个动作训练样本就可能要几分钟的时间。而强化学习中动辄几万、几十万的训练步骤,时间成本太高,而且机器人训练过程中还容易损坏,因此很难将在线RL应用于现实世界中的机器人技术问题,这也是强化学习很难落地应用的一个重大原因。但科研还要继续,遇到问题就要解决问题,借鉴监督学习中的数据集概念,便有了offline Reinforcement Learning,如果我们能够在多个问题或实验之间重原创 2022-04-27 15:09:41 · 2236 阅读 · 0 评论 -
离线强化学习(Offline RL)系列3: (算法篇) Onestep 算法详解与实现
迭代方法(Iterative)相对较差主要是由于在执行off-policy评估时固有的高方差的结果,且因这些估计的重复优化策略而放大,本文提出的基于On-policy的Onestep方法通过一步约束/规则化的策略改进,解决了基于off-policy的multi-step/interative中遇到的iterative error exploitation等问题,在连续(continous)任务达到了SOTA的效果。原创 2022-04-14 21:07:26 · 2476 阅读 · 0 评论 -
离线强化学习(Offline RL)系列3: (算法篇) IQL(Implicit Q-learning)算法详解与实现
本文提出的 IQL(Implicit Q-learning) 直接没有去学习OOD之外的动作,而是用已知的state-action进行学习,通过使用SARSA style的方式重构策略和值函数(引入Expectile Regression) $L$ ,在策略的抽取方面采用了AWR(Advantage Weighted Regression)方式抽取,直接确定 $Q$ 值如何随着不同的动作而变化,并借助随机动态对未来结果进行平均,而不是确定 $Q$ 值如何随着不同的未来结果而变化.结果表明原创 2022-04-12 17:42:10 · 6969 阅读 · 2 评论 -
离线强化学习(Offline RL)系列3: (算法篇) CQL(Conservative Q-Learning)算法详解与实现
论文的主要思想是在QQ值基础上增加一个regularizer,学习一个保守的Q函数,作者从理论上证明了CQL可以产生一个当前策略的真实值下界,并且是可以进行策略评估和策略提升的过程。从代码的角度上来说,本文的regularizer只需要20行代码即可实现,大幅提升了实验结果。同时作者也全部opensource了代码,非常推荐研究。原创 2022-04-10 15:42:35 · 6756 阅读 · 2 评论 -
离线强化学习(Offline RL)系列3: (算法篇) TD3+BC 算法详解与实现(经验篇)
本文作者提出的TD3+BC方法,结构简单,仅在值函数上添加一个行为克隆(BC)的正则项,并对state进行normalizing,简单的对TD3修改了几行代码就可以与前几种方法相媲美,结果表明:TD3+BC效果好,训练时间也比其他少很多原创 2022-04-09 12:30:57 · 7793 阅读 · 1 评论 -
离线强化学习(Offline RL)系列3: (算法篇) REM(Random Ensemble Mixture)算法详解与实现
本文作者大胆的提出了在不去修正该问题(without an explicit correction for distribution mismatch)的情况下能否达到state of the art的效果问题,并提出了**随机集成混合方法(Random Ensemble Mixture, REM)** 方法,它是一种使用多个参数化 $Q$ 函数来估计 $Q$ 值,并将多个 $Q$ 值估计的凸组合看作是 $Q$ 值估计本身,强制执行最佳的贝尔曼一致性的方法,结果表明效果不错。原创 2022-04-07 23:00:28 · 2844 阅读 · 0 评论 -
离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BRAC算法原理详解与实现(经验篇)
本文作者通过VP(value penalty)和PR(policy regularization 两种方式来提高算法的效率。并在此技术上讨论了诸如regularization weight、Divergence for regularization以及超参数选择等6方面的内容,论文做了大量的实验(一如既往的Google风格),结论是:(1)加权目标Q值集合和自适应正则化系数是不必要的;(2)价值惩罚(VP)的使用略优于策略正则化(PR),而许多可能的分歧(KL,MMD,Wass Dis)可以达到类似的性能原创 2022-04-06 17:20:37 · 2395 阅读 · 0 评论 -
离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BEAR算法原理详解与实现
策略约束(Policy constraint)作为一种非常重要的约束方法广泛的用在强化学习领域,然而,在offline中,BCQ使用的VAE和生成扰动网络虽然解决了extrapolation error,但对于一些仍然处于行为策略分布外(Out-of- Distributuin, OOD)的状态-动作无法很好的拟合,本文阐述的BEAR算法是一种新的策略约束解决办法,其通过一种交Support-set matching技术解决了learned policy和behavior policy之间的关系。原创 2022-04-05 22:17:22 · 4190 阅读 · 1 评论 -
离线强化学习(Offline RL)系列3: (算法篇)策略约束-BCQ算法详解与实现
本文主要介绍的是连续空间状态下的策略约束的BCQ算法, 作者首先就offline RL中容易出现extrapolation error现象进行了解释,然后用数学证明了在某些条件下这种误差是可以消除的,最后引入了BCQ算法,通过batch constrain的限制来避免这样的误差,实验证明BCQ算法的效果很好。原创 2022-04-02 18:44:20 · 4143 阅读 · 3 评论 -
离线强化学习(Offline RL)系列2: (环境篇)D4RL数据集简介、安装及错误解决
强化学习快速发展的主要原因在于有一个良好的模拟环境,最终得到一个最优的policy, 然而现实问题就是在实际落地应用中没有有效的环境,为了解决实验环境问题,本文主要对现有的离线强化学习数据集D4RL进行安装,并就出现的相关问题进行汇总原创 2022-03-28 18:32:57 · 11109 阅读 · 2 评论 -
离线强化学习(Offline RL)系列1:离线强化学习原理入门
离线强化学习(Offline RL)作为深度强化学习的子领域,其不需要与模拟环境进行交互就可以直接从数据中学习一套策略来完成相关任务,被认为是强化学习落地的重要技术之一。本文详细的阐述了强化学习到离线强化学习的发展过程,并就一些经典的问题进行了解释和说明。原创 2022-03-28 18:28:58 · 17197 阅读 · 0 评论 -
使用Amazon SageMaker RL 和Unity训练强化学习智能体
【更新记录】2022年3月25日 更新原始内容Unity 是最受欢迎的游戏引擎之一,不仅用于视频游戏开发,还被电影和汽车等行业采用。 Unity 提供工具来创建具有可定制物理、风景和角色的虚拟模拟环境。 Unity 机器学习代理工具包 (ML-Agents) 是一个开源项目,使开发人员能够针对在 Unity 上创建的环境训练强化学习 (RL) 智能体。强化学习是机器学习 (ML) 的一个领域,它教导软件代理如何在环境中采取行动,以最大限度地实现长期目标。有关更多信息,请参阅 Amazon Sa原创 2022-03-26 22:56:27 · 1788 阅读 · 0 评论 -
使用Amazon SageMaker RL训练离线强化学习策略
主要主要介绍如何使用 Amazon SageMaker RL 来训练离线强化学习 (batch RL)翻译 2022-03-26 18:33:17 · 1560 阅读 · 0 评论