- 博客(117)
- 收藏
- 关注
原创 Offline: From Novelty to Imitation: Self-Distilled Rewards for Offline Reinforcement Learning
本文提出ReLOAD框架,通过随机网络蒸馏(RND)为离线强化学习自动生成奖励信号。该方法利用专家数据预训练目标网络和预测器网络,通过二者在状态转移上的嵌入差异构建结构化奖励函数,无需人工标注。作者设计了两种奖励函数形式,并在Walker环境中验证了第二种方案的稳定性。理论分析表明RND与离线奖励构造目标具有一致性。该方法有效解决了离线RL依赖显式奖励标注的问题,为无奖励标注场景提供了实用解决方案。
2025-09-01 11:53:57
292
原创 O2O: Online Pre-Training for Offline-to-Online Reinforcement Learning
本文提出在线预训练(OPT)方法解决离线到在线强化学习中的性能下降问题。OPT在离线预训练和在线微调之间新增一个在线预训练阶段,专门训练适应在线数据的价值函数。该方法采用两阶段Q函数更新策略:第二阶段保留离线Q函数不变,单独训练新的在线Q函数;第三阶段则加权融合两个Q函数进行策略更新。实验表明,OPT在MuJoCo等D4RL环境中性能平均提升30%,有效缓解了因分布偏移导致的价值估计不准确问题。该方法为离线到在线RL的过渡提供了更平滑的转换机制。
2025-07-16 15:19:30
256
原创 Online SOTA :LANGEVIN SOFT ACTOR-CRITIC: EFFICIENT EX- PLORATION THROUGH UNCERTAINTY-DRIVEN CRITIC L
受 Thompson 采样在 RL 中高效探索的成功案例的启发,本文提出了一种新的免模型 RL 算法,Langevin Soft Actor Critic (LSAC),它优先通过不确定性估计来增强 critic 学习,而不是策略优化。LSAC 采用了三项关键创新:通过基于分布 Langevin Monte Carlo (LMC) 的 (Q) 值更新实现近似 Thompson 采样,通过并行回火探索 (Q) 函数后验的多种模式,以及使用 (Q) 动作梯度正则化的扩散合成状态-动作样本。
2025-07-10 18:41:47
225
原创 OfflineRL: OFFLINE REINFORCEMENT LEARNING VIA ADAPTIVE IMITATION AND IN-SAMPLE V -ENSEMBLE
本文提出ACTIVE算法,针对离线强化学习中样本内方法的价值函数过拟合和策略过度正则化问题。通过集成V函数抑制初始误差累积,并使用自适应约束调整策略,ACTIVE在D4RL基准上取得优于IQL和SQL的性能。实验表明该方法有效缓解了价值高估问题,提升了学习稳定性和策略质量。
2025-07-09 16:15:44
350
原创 Reward Shaping:HIGHLY EFFICIENT SELF-ADAPTIVE REWARD SHAP- ING FOR REINFORCEMENT LEARNING
本文提出了一种自适应奖励塑造方法,通过成功率估计来解决强化学习中的稀疏奖励问题。核心创新在于:1) 将状态成功率建模为Beta分布变量,实现探索与利用的平衡;2) 采用核密度估计结合随机傅里叶特征,高效处理高维连续状态空间。该方法在SAC算法框架下实现,并在稀疏奖励环境中验证了有效性,表现出优于基线的样本效率和收敛稳定性。技术亮点包括:基于历史轨迹的概率化成功率估计、计算高效的密度估计方法,以及自然平衡的探索-利用机制。
2025-07-03 21:48:27
322
原创 SimBa and SimBaV2:实现深度强化学习参数scaling up
本文提出SimBa网络结构,用于深度强化学习中actor与critic网络的优化设计。通过结合观测归一化、残差前馈块和层归一化三个组件,SimBa在实现网络参数扩展的同时提升采样效率并防止过拟合。实验结果表明,相比传统MLP结构,SimBa显著提高了表征能力,并在网络参数和样本重用率扩展时保持稳定性能。该设计为强化学习中的网络结构优化提供了新思路,有效解决了大规模网络在强化学习中的应用难题。
2025-07-02 21:26:08
343
原创 Prioritized Generative Replay
本文提出了一种基于生成模型的样本优先级强化学习方法,通过条件扩散模型实现经验数据的泛化生成。传统优先级重放方法存在过拟合风险,作者引入解耦的相关性函数来平衡样本重要性评估和多样性。具体采用内在好奇心模块作为探索指导,将前向动力学模型的预测误差作为生成条件,有效提升样本利用率。实验结果表明,该方法在像素和向量输入任务中均显著提高了采样效率,优于传统优先级重放和基于好奇心的奖励机制。这项研究为强化学习的样本效率问题提供了新的解决思路,将生成建模与内在动机机制创新性地结合。
2025-06-25 22:21:51
288
原创 Offline: OPTIMAL TRANSPORT FOR OFFLINE IMITATIONLEARNING
本文提出最优传输奖励标记(OTR)方法,用于解决离线强化学习中无奖励标注数据的奖励分配问题。OTR利用少量专家演示,通过最优传输计算与未标注轨迹的相似性作为奖励信号。实验在D4RL基准任务上验证了OTR生成的奖励与真实奖励具有强相关性。该方法特点包括:1)无需训练额外奖励模型,降低计算开销;2)避免对抗训练的不稳定性;3)与离线RL算法解耦,具有灵活性。结果表明OTR能有效实现无监督的奖励标注,为离线RL提供实用解决方案。
2025-06-25 16:29:36
199
原创 Offline Transition Modeling via Contrastive Energy Learning
本文提出基于能量的过渡模型(ETM)来改进离线强化学习中的动力学建模。针对标准前向模型在处理复杂过渡动态(如不连续、高曲率)时的局限性,该方法采用能量函数对转移概率建模,并通过对比学习训练模型:正样本来自真实数据转移,负样本由Langevin MCMC采样生成。实验表明,ETM能准确拟合不连续转移,并显著提升DOPE基准测试中的评估精度。在策略优化方面,提出的EMPO算法结合集成ETM和不确定性惩罚。
2025-06-05 21:10:28
441
原创 EFFICIENT ONLINE REINFORCEMENT LEARNING FINE-TUNING NEED NOT RETAIN OFFLINE DATA
然而,这种做法并不可取,因为对于大型数据集来说,在各种离线数据上进行训练既缓慢又昂贵,而且由于离线数据的限制或悲观情绪,原则上也会限制性能的提高。在本文中,我们将证明,只要使用设计得当的在线 RL 方法对离线 RL 初始化进行微调,就没有必要保留离线数据。我们发现,在离线数据上继续进行训练,主要是为了防止在微调开始时,由于离线数据和在线滚动数据之间的分布不匹配而导致值函数突然发散。本文方法,即暖启动 RL (WSRL),利用一个非常简单的想法减轻了预训练初始化的灾难性遗忘。
2025-05-15 18:36:23
318
原创 MAD-TD: MODEL-AUGMENTED DATA STABILIZES HIGH UPDATE RATIO RL
本文提出了一种名为MAD-TD(Model-Augmented Data for Temporal Difference learning)的新方法,旨在解决深度强化学习(RL)在少量样本下训练不稳定的问题。传统方法通过高更新-数据比(UTD)策略提高样本效率,但常导致训练不稳定,需周期性重置神经网络参数。MAD-TD通过引入由学习到的世界模型生成的少量数据,直接缓解了价值函数无法泛化到未观察到的策略动作上的问题。该方法基于TD3算法,采用UTD=8的默认更新,并在DeepMind控制套件的挑战性任务上表现
2025-05-10 21:25:13
636
原创 Stop Regressing: Training Value Functions via Classification for Scalable Deep RL
本文探讨了在深度强化学习(RL)中,通过分类而非回归方法训练值函数以提高可扩展性和性能的潜力。传统上,值函数通过均方误差回归训练,但这种方法在扩展到大型网络时面临挑战。与监督学习中的交叉熵分类损失相比,本文提出使用分类交叉熵来训练值函数,并研究了三种不同的目标Q分布设置:双热分类分布、直方图作为分类分布和分类分布RL(C51)。实验结果表明,使用直方图作为分类分布的方法在性能上表现最佳,并且在更大规模的RL任务中,基于分类分布的Q值训练方法显示出更好的扩展性。这一研究为深度RL的可扩展性提供了新的视角和方法
2025-05-09 21:16:53
205
原创 Representation + IL: Policy Contrastive Imitation Learning
ICML 2023采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构。
2024-12-12 21:56:13
254
原创 LfO: Imitation Learning from Observation with Automatic Discount Scheduling
人类模仿学习过程是一个渐进的过程,不可能说当下的基础技能没学扎实,就模仿未来的目标。本篇文章便从这一个基本思想出发,通过自适应调整强化学习中折扣因子实现这一目标。实验环境设置在pixel-based observation-only 的演示下的模仿学习。
2024-12-12 17:31:01
771
原创 Extreme Q-Learning: MaxEnt RL without Entropy
作者观察到bellman误差的分布并不是符合高斯分布,而是存在偏斜,更符合Gumbel分布。并且MaxEnt RL框架下的最有价值函数形式与Gumbel回归结果形式一致。因此采用Gumbel分布对价值函数进行建模。在Online与Offline都取得不错的效果。
2024-12-03 15:09:21
214
原创 Diffusion RL :Synthetic Experience Replay
NIPS 2023通过diffusion模型生成海量的合成数据用于RL策略以及价值函数训练,在离线以及在线设定下均表现优异,并且适用于pixel-based的RL设定,同时允许提高UTD进一步提升sample efficiency。
2024-12-03 11:03:16
569
原创 Domain Adaption : Cross-Domain Policy Adaptation by Capturing Representation Mismatch
ICML 2024。
2024-11-26 23:15:13
441
原创 O2O: (BOORL) Bayesian Design Principles for Offline-to-Online RL
ICML 2024。
2024-11-25 22:34:43
702
原创 Offline: (A2PR)Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning
ICML 2024 Offline policy constraint
2024-11-25 17:08:30
938
原创 Representation+Offline: Contrastive Representation for Data Filtering in Cross-Domain.....
利用对比学习进行状态动作表征,基于表征筛选出合适的样本实现cross-domain】、ICML 2024。
2024-11-05 10:37:57
355
原创 Iterative Regularized Policy Optimization with Imperfect Demonstrations
ICML 2024。
2024-09-21 10:40:22
851
原创 RLFD: Imitation Bootstrapped Reinforcement Learnin
CoRR 2023视觉或向量输入下的RLFD方法,利用模仿学习得到的策略,以自举方式引导在强化学习的策略优化以及价值函数优化。同时,为了更好的表征,IBRL选取VIT-based的网络以及添加Dropout 到policy。
2024-09-11 20:34:09
1068
原创 Prioritized Experience-based Reinforcement Learning with Human Guidance for Autonomous Driving
人类干预下的reward-shaping,只有在第一次干预下才会进行,若连续干预,则除去第一次均不进行shaping.Human-guided off-policy RL 应用在自动驾驶,其中RL采用的TD3。利用人类专家演示数据,在策略优化过程中通过BC正则的形式,实现策略优化的引导。
2024-09-11 10:26:01
984
原创 Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic
实验全面,效果也好。从价值函数估计角度出发,探索replayBuffer中样本的利用,进而提升sample efficiency。这与上一篇的OBAC的一个共同点,就是利用offline的RL方法得到一个价值函数的表达,OBAC注重用它在策略层面的引导,而本文则侧重通过bellman算子在价值函数本身的改造。
2024-09-06 19:49:45
975
原创 Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL
ICML 2024。
2024-09-04 16:09:25
1089
1
原创 Representation RL : DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with Prototyp
ICML 2022。
2024-06-20 22:02:30
1167
原创 Representation RL:HarmonyDream: Task Harmonization Inside World Models
ICML2024。
2024-06-20 13:33:48
1084
原创 Offline:Uncertainty-Aware Model-Based Offline Reinforcement Learning for Automated Driving
基于Planning的model-based offline RL算法,采用CARLA环境解决自动驾驶问题
2024-06-14 16:12:55
1117
原创 O2O : OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning
ICML 2024papercode解决离线到在线过程中,判别器对齐问题。传统采用离线模仿学习结合基于GAIL的在线模仿学习,容易因为在线阶段初始化的判别器表现具有随机性,与离线获得的策略不一致。因此,本文提出的OLLIE,便是利用混合质量的数据,实现判别器与策略之间的对齐,从何防止O2O的performance drop。GAIL是一种传统在线模仿学习算法,其目标是对抗的学习一个判别器,用于区分专家数据与在线数据minπmaxDEρπ[logD(s,a)]+Eρˉe[log(1−D(s,a
2024-06-13 16:31:25
1090
原创 Offline : How to Leverage Diverse Demonstrations in Offline Imitation Learning
ICML 2024。
2024-06-12 21:09:02
847
原创 Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning
ICLR 2023。
2024-06-12 17:48:38
942
原创 Offline :Adversarially Trained Actor Critic for Offline Reinforcement Learning
ICML 2022基于Stackelberg游戏博弈形式,对抗的学习actor与critic。
2024-06-12 11:01:13
681
原创 Offline:Model-Based Offline Reinforcement Learning with Uncertainty Estimation and Policy Constraint
采用集成模型下MC Dropout实现状态动作对的不确定性估计,该估计将作为奖励函数的正则化项。然后基于MMD约束实现策略优化。
2024-06-06 18:26:22
964
原创 Offline RL : Offline Reinforcement Learning with Uncertainty Critic Regularization Based on Density
IJCNN 2023在PBRL的悲观价值估计的基础上,添加一个基于VAE的ELBO的密度估计权重。同时,将算法进一步推广到在线阶段,实现乐观的价值估计。
2024-06-06 17:11:30
867
原创 Offline RL : Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning
ICML 2021利用Q的方差作为权重估计,降低OOD数据的影响程度。
2024-06-06 10:32:15
1029
原创 O2O : Finetuning Offline World Models in the Real World
启发于IQL,通过只对in-sample的动作尽心TD-backups来估计,缓解过估计问题。文章提出基于不确定性估计的planning实现在线交互过程中的动作选择。算法基于TD-MPC,利用离线数据训练世界模型,然后在线融合基于集成Q的不确定性估计实现Planning。除此外,还维护两个buffer分别存储离线数据于在线数据,通过balance sampling数据训练模型、策略以及价值函数。首先构建集成Q函数模型,计算基于标准差的不确信度,作为惩罚项对奖励进行调整,实现保守的在线planning。
2024-06-03 22:14:33
1026
原创 O2O:Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning
现有的解决方案通过在离线和在线学习中对策略改进目标施加策略约束来解决这个问题。这种“一刀切”的方式可能无法最优地利用每个收集的样本,因为不同状态的数据质量存在显著差异。本文提出离线到在线RL (FamO2O),使现有算法能够状态自适应的实现策略改进与约束之间的平衡。FamO2O使用一个通用模型来训练具有不同改进/约束强度的策略族,使用一个平衡模型来为每个状态选择合适的策略。经验上,广泛的实验表明,FamO2O在统计上比各种现有方法有显著的改进,在D4RL基准上实现了最先进的性能。平衡系数模型优化如下。
2024-06-03 15:47:13
773
原创 Offline RL:RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning
NIPS 2022。
2024-05-31 23:00:01
782
原创 O2O :SUF: Stabilized Unconstrained Fine-Tuning for Offline-to-Online Reinforcement Learning
AAAI 2024。
2024-05-31 11:12:16
617
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅