Online SOTA :LANGEVIN SOFT ACTOR-CRITIC: EFFICIENT EX- PLORATION THROUGH UNCERTAINTY-DRIVEN CRITIC L

ICLR 2025
现有的 Actor-Critic 算法在连续控制强化学习 (RL) 任务中非常流行,但由于缺乏有效的探索机制,导致样本效率低下。受 Thompson 采样在 RL 中高效探索的成功案例的启发,本文提出了一种新的免模型 RL 算法,Langevin Soft Actor Critic (LSAC),它优先通过不确定性估计来增强 critic 学习,而不是策略优化。LSAC 采用了三项关键创新:通过基于分布 Langevin Monte Carlo (LMC) 的 (Q) 值更新实现近似 Thompson 采样,通过并行回火探索 (Q) 函数后验的多种模式,以及使用 (Q) 动作梯度正则化的扩散合成状态-动作样本。大量实验表明(Mujoco、Maze以及DMC),LSAC 在连续控制任务中的性能优于或匹配主流的免模型 RL 算法。值得注意的是,LSAC 标志着基于 LMC 的 Thompson 采样在具有连续动作空间的连续控制任务中的首次成功应用。

稳定高效的价值估计 + 多样化的数据合成
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值