收到求救信号-优快云博客

原创 Offline Transition Modeling via Contrastive Energy Learning

本文提出基于能量的过渡模型(ETM)来改进离线强化学习中的动力学建模。针对标准前向模型在处理复杂过渡动态(如不连续、高曲率)时的局限性，该方法采用能量函数对转移概率建模，并通过对比学习训练模型：正样本来自真实数据转移，负样本由Langevin MCMC采样生成。实验表明，ETM能准确拟合不连续转移，并显著提升DOPE基准测试中的评估精度。在策略优化方面，提出的EMPO算法结合集成ETM和不确定性惩罚。

2025-06-05 21:10:28 387

原创 EFFICIENT ONLINE REINFORCEMENT LEARNING FINE-TUNING NEED NOT RETAIN OFFLINE DATA

然而，这种做法并不可取，因为对于大型数据集来说，在各种离线数据上进行训练既缓慢又昂贵，而且由于离线数据的限制或悲观情绪，原则上也会限制性能的提高。在本文中，我们将证明，只要使用设计得当的在线 RL 方法对离线 RL 初始化进行微调，就没有必要保留离线数据。我们发现，在离线数据上继续进行训练，主要是为了防止在微调开始时，由于离线数据和在线滚动数据之间的分布不匹配而导致值函数突然发散。本文方法，即暖启动 RL (WSRL)，利用一个非常简单的想法减轻了预训练初始化的灾难性遗忘。

2025-05-15 18:36:23 224

原创 MAD-TD: MODEL-AUGMENTED DATA STABILIZES HIGH UPDATE RATIO RL

本文提出了一种名为MAD-TD（Model-Augmented Data for Temporal Difference learning）的新方法，旨在解决深度强化学习（RL）在少量样本下训练不稳定的问题。传统方法通过高更新-数据比（UTD）策略提高样本效率，但常导致训练不稳定，需周期性重置神经网络参数。MAD-TD通过引入由学习到的世界模型生成的少量数据，直接缓解了价值函数无法泛化到未观察到的策略动作上的问题。该方法基于TD3算法，采用UTD=8的默认更新，并在DeepMind控制套件的挑战性任务上表现

2025-05-10 21:25:13 567

原创 Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

本文探讨了在深度强化学习（RL）中，通过分类而非回归方法训练值函数以提高可扩展性和性能的潜力。传统上，值函数通过均方误差回归训练，但这种方法在扩展到大型网络时面临挑战。与监督学习中的交叉熵分类损失相比，本文提出使用分类交叉熵来训练值函数，并研究了三种不同的目标Q分布设置：双热分类分布、直方图作为分类分布和分类分布RL（C51）。实验结果表明，使用直方图作为分类分布的方法在性能上表现最佳，并且在更大规模的RL任务中，基于分类分布的Q值训练方法显示出更好的扩展性。这一研究为深度RL的可扩展性提供了新的视角和方法

2025-05-09 21:16:53 174

原创 Representation + IL: Policy Contrastive Imitation Learning

ICML 2023采用对比学习对状态动作联合表征，并基于表征函数实现奖励函数重构。

2024-12-12 21:56:13 228

原创 LfO: Imitation Learning from Observation with Automatic Discount Scheduling

人类模仿学习过程是一个渐进的过程，不可能说当下的基础技能没学扎实，就模仿未来的目标。本篇文章便从这一个基本思想出发，通过自适应调整强化学习中折扣因子实现这一目标。实验环境设置在pixel-based observation-only 的演示下的模仿学习。

2024-12-12 17:31:01 714

原创 Extreme Q-Learning: MaxEnt RL without Entropy

作者观察到bellman误差的分布并不是符合高斯分布，而是存在偏斜，更符合Gumbel分布。并且MaxEnt RL框架下的最有价值函数形式与Gumbel回归结果形式一致。因此采用Gumbel分布对价值函数进行建模。在Online与Offline都取得不错的效果。

2024-12-03 15:09:21 180

原创 Diffusion RL ：Synthetic Experience Replay

NIPS 2023通过diffusion模型生成海量的合成数据用于RL策略以及价值函数训练，在离线以及在线设定下均表现优异，并且适用于pixel-based的RL设定，同时允许提高UTD进一步提升sample efficiency。

2024-12-03 11:03:16 437

原创 Domain Adaption : Cross-Domain Policy Adaptation by Capturing Representation Mismatch

ICML 2024。

2024-11-26 23:15:13 400

原创 O2O: (BOORL) Bayesian Design Principles for Offline-to-Online RL

ICML 2024。

2024-11-25 22:34:43 658

原创 Offline: （A2PR）Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning

ICML 2024 Offline policy constraint

2024-11-25 17:08:30 868

原创 Representation+Offline： Contrastive Representation for Data Filtering in Cross-Domain.....

利用对比学习进行状态动作表征，基于表征筛选出合适的样本实现cross-domain】、ICML 2024。

2024-11-05 10:37:57 327

原创 Iterative Regularized Policy Optimization with Imperfect Demonstrations

ICML 2024。

2024-09-21 10:40:22 813

原创 RLFD: Imitation Bootstrapped Reinforcement Learnin

CoRR 2023视觉或向量输入下的RLFD方法，利用模仿学习得到的策略，以自举方式引导在强化学习的策略优化以及价值函数优化。同时，为了更好的表征，IBRL选取VIT-based的网络以及添加Dropout 到policy。

2024-09-11 20:34:09 913

原创 Prioritized Experience-based Reinforcement Learning with Human Guidance for Autonomous Driving

人类干预下的reward-shaping，只有在第一次干预下才会进行，若连续干预，则除去第一次均不进行shaping.Human-guided off-policy RL 应用在自动驾驶，其中RL采用的TD3。利用人类专家演示数据，在策略优化过程中通过BC正则的形式，实现策略优化的引导。

2024-09-11 10:26:01 956

原创 Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic

实验全面，效果也好。从价值函数估计角度出发，探索replayBuffer中样本的利用，进而提升sample efficiency。这与上一篇的OBAC的一个共同点，就是利用offline的RL方法得到一个价值函数的表达，OBAC注重用它在策略层面的引导，而本文则侧重通过bellman算子在价值函数本身的改造。

2024-09-06 19:49:45 918

原创 Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL

ICML 2024。

2024-09-04 16:09:25 1024 1

原创 Representation RL : DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with Prototyp

ICML 2022。

2024-06-20 22:02:30 1097

原创 Representation RL：HarmonyDream: Task Harmonization Inside World Models

ICML2024。

2024-06-20 13:33:48 1038

原创 Offline：Uncertainty-Aware Model-Based Offline Reinforcement Learning for Automated Driving

基于Planning的model-based offline RL算法，采用CARLA环境解决自动驾驶问题

2024-06-14 16:12:55 1077

原创 O2O : OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning

ICML 2024papercode解决离线到在线过程中，判别器对齐问题。传统采用离线模仿学习结合基于GAIL的在线模仿学习，容易因为在线阶段初始化的判别器表现具有随机性，与离线获得的策略不一致。因此，本文提出的OLLIE，便是利用混合质量的数据，实现判别器与策略之间的对齐，从何防止O2O的performance drop。GAIL是一种传统在线模仿学习算法，其目标是对抗的学习一个判别器，用于区分专家数据与在线数据min⁡πmax⁡DEρπ[log⁡D(s,a)]+Eρˉe[log⁡(1−D(s,a

2024-06-13 16:31:25 1041

原创 Offline : How to Leverage Diverse Demonstrations in Offline Imitation Learning

ICML 2024。

2024-06-12 21:09:02 830

原创 Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning

ICLR 2023。

2024-06-12 17:48:38 893

原创 Offline ：Adversarially Trained Actor Critic for Offline Reinforcement Learning

ICML 2022基于Stackelberg游戏博弈形式，对抗的学习actor与critic。

2024-06-12 11:01:13 637

原创 O2O:Offline–Online Actor–Critic

加权TD3_BC。

2024-06-06 21:30:28 810

原创 Offline:Model-Based Offline Reinforcement Learning with Uncertainty Estimation and Policy Constraint

采用集成模型下MC Dropout实现状态动作对的不确定性估计，该估计将作为奖励函数的正则化项。然后基于MMD约束实现策略优化。

2024-06-06 18:26:22 898

原创 Offline RL : Offline Reinforcement Learning with Uncertainty Critic Regularization Based on Density

IJCNN 2023在PBRL的悲观价值估计的基础上，添加一个基于VAE的ELBO的密度估计权重。同时，将算法进一步推广到在线阶段，实现乐观的价值估计。

2024-06-06 17:11:30 821

原创 Offline RL : Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning

ICML 2021利用Q的方差作为权重估计，降低OOD数据的影响程度。

2024-06-06 10:32:15 965

原创 O2O : Finetuning Offline World Models in the Real World

启发于IQL，通过只对in-sample的动作尽心TD-backups来估计，缓解过估计问题。文章提出基于不确定性估计的planning实现在线交互过程中的动作选择。算法基于TD-MPC，利用离线数据训练世界模型，然后在线融合基于集成Q的不确定性估计实现Planning。除此外，还维护两个buffer分别存储离线数据于在线数据，通过balance sampling数据训练模型、策略以及价值函数。首先构建集成Q函数模型，计算基于标准差的不确信度，作为惩罚项对奖励进行调整，实现保守的在线planning。

2024-06-03 22:14:33 987

原创 O2O:Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning

现有的解决方案通过在离线和在线学习中对策略改进目标施加策略约束来解决这个问题。这种“一刀切”的方式可能无法最优地利用每个收集的样本，因为不同状态的数据质量存在显著差异。本文提出离线到在线RL (FamO2O)，使现有算法能够状态自适应的实现策略改进与约束之间的平衡。FamO2O使用一个通用模型来训练具有不同改进/约束强度的策略族，使用一个平衡模型来为每个状态选择合适的策略。经验上，广泛的实验表明，FamO2O在统计上比各种现有方法有显著的改进，在D4RL基准上实现了最先进的性能。平衡系数模型优化如下。

2024-06-03 15:47:13 747

原创 Offline RL：RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning

NIPS 2022。

2024-05-31 23:00:01 738

原创 O2O ：SUF: Stabilized Unconstrained Fine-Tuning for Offline-to-Online Reinforcement Learning

AAAI 2024。

2024-05-31 11:12:16 529

原创 Offline RL ：Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief

因此，本文提出一种新方法，通过维持一个动态的信念分布，并通过对信念进行偏向悲观的采样来评估/优化策略。以往基于模型的方法，通过对模型预测的不确定性作为reward的惩罚项，一定程度导致保守行为估计。解决每个子问题都会对策略进行显著的更新，但在收敛之前，可能需要不断构造子问题，然后准确地解决每个子问会导致不必要的计算。中的元素则是相互独立且同分布，天然的将不确定性引入进每一步的预测中。这里的想法是将优化的策略约束在参考策略的邻居中，以便在这样一个小的策略区域内充分评估内部问题。在每一轮中，主玩家收到奖励者。

2024-05-30 21:11:08 828

原创 O2O : MOTO: Offline to Online Fine-tuning for Model-Based Reinforcement Learning

文章认为，现有的基于模型的离线强化学习方法由于分布偏移、非动态数据和非平稳奖励等问题，在高维领域不适合离线到在线的微调。因此，提出了一种on-policy的基于模型的方法，该方法可以通过基于模型的价值扩展和策略正则化高效地重用先前数据，同时通过控制认知不确定性来防止模型过度利用。因此，在训练的初始阶段，动力学模型可能非常不准确，代理策略可以从更强的数据正则化中受益。，执行时随机采样一个模型去优化世界模型。然后按照一般的off-policy的算法，采用两个Q函数以及target Q函数，对价值函数建模。

2024-05-30 15:30:57 853

空空如也

空空如也