ICLR 2025
现有的 Actor-Critic 算法在连续控制强化学习 (RL) 任务中非常流行,但由于缺乏有效的探索机制,导致样本效率低下。受 Thompson 采样在 RL 中高效探索的成功案例的启发,本文提出了一种新的免模型 RL 算法,Langevin Soft Actor Critic (LSAC),它优先通过不确定性估计来增强 critic 学习,而不是策略优化。LSAC 采用了三项关键创新:通过基于分布 Langevin Monte Carlo (LMC) 的 (Q) 值更新实现近似 Thompson 采样,通过并行回火探索 (Q) 函数后验的多种模式,以及使用 (Q) 动作梯度正则化的扩散合成状态-动作样本。大量实验表明(Mujoco、Maze以及DMC),LSAC 在连续控制任务中的性能优于或匹配主流的免模型 RL 算法。值得注意的是,LSAC 标志着基于 LMC 的 Thompson 采样在具有连续动作空间的连续控制任务中的首次成功应用。
稳定高效的价值估计 + 多样化的数据合成