- 博客(105)
- 收藏
- 关注
原创 Representation + IL: Policy Contrastive Imitation Learning
ICML 2023采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构。
2024-12-12 21:56:13
209
原创 LfO: Imitation Learning from Observation with Automatic Discount Scheduling
人类模仿学习过程是一个渐进的过程,不可能说当下的基础技能没学扎实,就模仿未来的目标。本篇文章便从这一个基本思想出发,通过自适应调整强化学习中折扣因子实现这一目标。实验环境设置在pixel-based observation-only 的演示下的模仿学习。
2024-12-12 17:31:01
684
原创 Extreme Q-Learning: MaxEnt RL without Entropy
作者观察到bellman误差的分布并不是符合高斯分布,而是存在偏斜,更符合Gumbel分布。并且MaxEnt RL框架下的最有价值函数形式与Gumbel回归结果形式一致。因此采用Gumbel分布对价值函数进行建模。在Online与Offline都取得不错的效果。
2024-12-03 15:09:21
163
原创 Diffusion RL :Synthetic Experience Replay
NIPS 2023通过diffusion模型生成海量的合成数据用于RL策略以及价值函数训练,在离线以及在线设定下均表现优异,并且适用于pixel-based的RL设定,同时允许提高UTD进一步提升sample efficiency。
2024-12-03 11:03:16
382
原创 Domain Adaption : Cross-Domain Policy Adaptation by Capturing Representation Mismatch
ICML 2024。
2024-11-26 23:15:13
370
原创 O2O: (BOORL) Bayesian Design Principles for Offline-to-Online RL
ICML 2024。
2024-11-25 22:34:43
636
原创 Offline: (A2PR)Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning
ICML 2024 Offline policy constraint
2024-11-25 17:08:30
828
原创 Representation+Offline: Contrastive Representation for Data Filtering in Cross-Domain.....
利用对比学习进行状态动作表征,基于表征筛选出合适的样本实现cross-domain】、ICML 2024。
2024-11-05 10:37:57
294
原创 Iterative Regularized Policy Optimization with Imperfect Demonstrations
ICML 2024。
2024-09-21 10:40:22
780
原创 RLFD: Imitation Bootstrapped Reinforcement Learnin
CoRR 2023视觉或向量输入下的RLFD方法,利用模仿学习得到的策略,以自举方式引导在强化学习的策略优化以及价值函数优化。同时,为了更好的表征,IBRL选取VIT-based的网络以及添加Dropout 到policy。
2024-09-11 20:34:09
845
原创 Prioritized Experience-based Reinforcement Learning with Human Guidance for Autonomous Driving
人类干预下的reward-shaping,只有在第一次干预下才会进行,若连续干预,则除去第一次均不进行shaping.Human-guided off-policy RL 应用在自动驾驶,其中RL采用的TD3。利用人类专家演示数据,在策略优化过程中通过BC正则的形式,实现策略优化的引导。
2024-09-11 10:26:01
934
原创 Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic
实验全面,效果也好。从价值函数估计角度出发,探索replayBuffer中样本的利用,进而提升sample efficiency。这与上一篇的OBAC的一个共同点,就是利用offline的RL方法得到一个价值函数的表达,OBAC注重用它在策略层面的引导,而本文则侧重通过bellman算子在价值函数本身的改造。
2024-09-06 19:49:45
887
原创 Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL
ICML 2024。
2024-09-04 16:09:25
989
1
原创 Representation RL : DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with Prototyp
ICML 2022。
2024-06-20 22:02:30
1069
原创 Representation RL:HarmonyDream: Task Harmonization Inside World Models
ICML2024。
2024-06-20 13:33:48
1012
原创 Offline:Uncertainty-Aware Model-Based Offline Reinforcement Learning for Automated Driving
基于Planning的model-based offline RL算法,采用CARLA环境解决自动驾驶问题
2024-06-14 16:12:55
1056
原创 O2O : OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning
ICML 2024papercode解决离线到在线过程中,判别器对齐问题。传统采用离线模仿学习结合基于GAIL的在线模仿学习,容易因为在线阶段初始化的判别器表现具有随机性,与离线获得的策略不一致。因此,本文提出的OLLIE,便是利用混合质量的数据,实现判别器与策略之间的对齐,从何防止O2O的performance drop。GAIL是一种传统在线模仿学习算法,其目标是对抗的学习一个判别器,用于区分专家数据与在线数据minπmaxDEρπ[logD(s,a)]+Eρˉe[log(1−D(s,a
2024-06-13 16:31:25
1015
原创 Offline : How to Leverage Diverse Demonstrations in Offline Imitation Learning
ICML 2024。
2024-06-12 21:09:02
812
原创 Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning
ICLR 2023。
2024-06-12 17:48:38
869
原创 Offline :Adversarially Trained Actor Critic for Offline Reinforcement Learning
ICML 2022基于Stackelberg游戏博弈形式,对抗的学习actor与critic。
2024-06-12 11:01:13
623
原创 Offline:Model-Based Offline Reinforcement Learning with Uncertainty Estimation and Policy Constraint
采用集成模型下MC Dropout实现状态动作对的不确定性估计,该估计将作为奖励函数的正则化项。然后基于MMD约束实现策略优化。
2024-06-06 18:26:22
873
原创 Offline RL : Offline Reinforcement Learning with Uncertainty Critic Regularization Based on Density
IJCNN 2023在PBRL的悲观价值估计的基础上,添加一个基于VAE的ELBO的密度估计权重。同时,将算法进一步推广到在线阶段,实现乐观的价值估计。
2024-06-06 17:11:30
796
原创 Offline RL : Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning
ICML 2021利用Q的方差作为权重估计,降低OOD数据的影响程度。
2024-06-06 10:32:15
946
原创 O2O : Finetuning Offline World Models in the Real World
启发于IQL,通过只对in-sample的动作尽心TD-backups来估计,缓解过估计问题。文章提出基于不确定性估计的planning实现在线交互过程中的动作选择。算法基于TD-MPC,利用离线数据训练世界模型,然后在线融合基于集成Q的不确定性估计实现Planning。除此外,还维护两个buffer分别存储离线数据于在线数据,通过balance sampling数据训练模型、策略以及价值函数。首先构建集成Q函数模型,计算基于标准差的不确信度,作为惩罚项对奖励进行调整,实现保守的在线planning。
2024-06-03 22:14:33
968
原创 O2O:Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning
现有的解决方案通过在离线和在线学习中对策略改进目标施加策略约束来解决这个问题。这种“一刀切”的方式可能无法最优地利用每个收集的样本,因为不同状态的数据质量存在显著差异。本文提出离线到在线RL (FamO2O),使现有算法能够状态自适应的实现策略改进与约束之间的平衡。FamO2O使用一个通用模型来训练具有不同改进/约束强度的策略族,使用一个平衡模型来为每个状态选择合适的策略。经验上,广泛的实验表明,FamO2O在统计上比各种现有方法有显著的改进,在D4RL基准上实现了最先进的性能。平衡系数模型优化如下。
2024-06-03 15:47:13
721
原创 Offline RL:RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning
NIPS 2022。
2024-05-31 23:00:01
706
原创 O2O :SUF: Stabilized Unconstrained Fine-Tuning for Offline-to-Online Reinforcement Learning
AAAI 2024。
2024-05-31 11:12:16
492
原创 Offline RL :Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief
因此,本文提出一种新方法,通过维持一个动态的信念分布,并通过对信念进行偏向悲观的采样来评估/优化策略。以往基于模型的方法,通过对模型预测的不确定性作为reward的惩罚项,一定程度导致保守行为估计。解决每个子问题都会对策略进行显著的更新,但在收敛之前,可能需要不断构造子问题,然后准确地解决每个子问会导致不必要的计算。中的元素则是相互独立且同分布,天然的将不确定性引入进每一步的预测中。这里的想法是将优化的策略约束在参考策略的邻居中,以便在这样一个小的策略区域内充分评估内部问题。在每一轮中,主玩家收到奖励者。
2024-05-30 21:11:08
774
原创 O2O : MOTO: Offline to Online Fine-tuning for Model-Based Reinforcement Learning
文章认为,现有的基于模型的离线强化学习方法由于分布偏移、非动态数据和非平稳奖励等问题,在高维领域不适合离线到在线的微调。因此,提出了一种on-policy的基于模型的方法,该方法可以通过基于模型的价值扩展和策略正则化高效地重用先前数据,同时通过控制认知不确定性来防止模型过度利用。因此,在训练的初始阶段,动力学模型可能非常不准确,代理策略可以从更强的数据正则化中受益。,执行时随机采样一个模型去优化世界模型。然后按照一般的off-policy的算法,采用两个Q函数以及target Q函数,对价值函数建模。
2024-05-30 15:30:57
822
原创 O2O:Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and Stable Online Fine-Tuning
但由于从离线到在线设置的突然偏移,这通常会导致初始策略出现performance drop。因此为了提高稳定性和性能的方法,设计了一种过渡到在线设置的替代方法。算法初始化一个新的重放缓冲区,并根据从环境中收集的额外交互训练评论家和策略。过低不能防止过估计问题存在,而较高的值会导致策略泛化能力差,使得策略表现仅限于数据集。通过对TD3-BC 中的BC正则化项系数进行调整,使得算法在实现O2O时有更好的表现。其中当数据为次优时,BC项容易导致策略优化崩溃。其中策略为确定性策略,加上噪声提升探索能力。
2024-05-30 10:38:15
734
原创 O2O:DCAC: Reducing Unnecessary Conservatism in Offline-to-online Reinforcement Learning
DAI 2023。
2024-05-25 15:45:21
787
原创 Offline RL : Context-Former: Stitching via Latent Conditioned Sequence Modeling
上述两个定义分别给出基于隐变量的条件序列模型建模方式,以及使用专家序列,通过度量经过embedding后的变量距离,使得待优化策略应满足靠近专家策略,远离次优轨迹策略。对于定义二有如下形式化的目标来优化上下文隐变量表征Jz∗minz∗IϕEτ∗∼π∗τ∥z∗−Iϕτ∗∥−Eτ∼π∥z∗−Iϕτ∥Jz∗z∗IϕminEτ∗∼π∗τ∥z∗−Iϕτ∗∥−Eτ∼。
2024-05-25 10:05:49
1121
原创 Offline RL : Beyond Reward: Offline Preference-guided Policy Optimization
ICML 2023preference based offline RL,基于HIM,不依靠额外学习奖励函数。
2024-05-24 20:13:53
886
原创 Offline RL : StARformer: Transformer With State-Action-Reward Representations for Robot Learning
额外添加一个自注意力捕捉关键信息,并作为goal加入到Transformer序列模型中学习策略。
2024-05-24 16:17:42
1077
原创 Offline RL : Generalized Decision Transformer for Offline Hindsight Information Matching
基于序列模型架构的离线强化学习引入累计奖励丰富输入信号(HER 以及DT中的“returns-to-go:),从而帮助序列模型的样本效率提升。本文证明了所有这些方法都是事后信息匹配 (hindsight information matching,HIM)—通过训练策略,输出与未来状态信息的在一些统计数据相匹配的其他轨迹。启发于Distribution RL,采用直方图的作为特征空间表达,然后加入到序列模型的输入,并且随着时间步采用类似bellman的递归更新方式。,以及该集合的信息统计量为。
2024-05-24 11:10:17
787
原创 Offline RL :Bootstrapped Transformer for Offline Reinforcement Learning
NIPS 2022可看作是一种数据增强。
2024-05-22 20:10:22
677
原创 Offline RL :Critic-Guided Decision Transformer for Offline Reinforcement Learning
AAAI 2023利用价值函数解决序列模型拼接能力的离线算法。
2024-05-21 22:23:36
682
原创 Offline RL : Reinformer: Max-Return Sequence Modeling for offline RL
ICML 2024。
2024-05-20 22:43:00
691
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人