Online SOTA :LANGEVIN SOFT ACTOR-CRITIC: EFFICIENT EX- PLORATION THROUGH UNCERTAINTY-DRIVEN CRITIC L

收到求救信号

于 2025-07-10 18:41:47 发布

阅读量160

点赞数 2

CC 4.0 BY-SA版权

分类专栏：强化学习 Model-free ICLR2025 文章标签：算法机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wdnmdwsmsa/article/details/149256006

强化学习同时被 3 个专栏收录

99 篇文章

订阅专栏

22 篇文章

订阅专栏

5 篇文章

订阅专栏

ICLR 2025
现有的 Actor-Critic 算法在连续控制强化学习 (RL) 任务中非常流行，但由于缺乏有效的探索机制，导致样本效率低下。受 Thompson 采样在 RL 中高效探索的成功案例的启发，本文提出了一种新的免模型 RL 算法，Langevin Soft Actor Critic (LSAC)，它优先通过不确定性估计来增强 critic 学习，而不是策略优化。LSAC 采用了三项关键创新：通过基于分布 Langevin Monte Carlo (LMC) 的 (Q) 值更新实现近似 Thompson 采样，通过并行回火探索 (Q) 函数后验的多种模式，以及使用 (Q) 动作梯度正则化的扩散合成状态-动作样本。大量实验表明(Mujoco、Maze以及DMC)，LSAC 在连续控制任务中的性能优于或匹配主流的免模型 RL 算法。值得注意的是，LSAC 标志着基于 LMC 的 Thompson 采样在具有连续动作空间的连续控制任务中的首次成功应用。

稳定高效的价值估计 + 多样化的数据合成
在这里插入图片描述

收到求救信号

博客等级

码龄6年

115
原创

1790
点赞

1871
收藏

1293
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: OfflineRL： OFFLINE REINFORCEMENT LEARNING VIA ADAPTIVE IMITATION AND IN-SAMPLE V -ENSEMBLE

最新评论

Zotero如何设置彩色标签
m0_74368367: 在标签的列设置里选left，别选right试试
Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL
优快云-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
无监督RL：PAE: Reinforcement Learning from External Knowledge for Efficient Exploration
すもも141: 这个工作有开源吗
Sim2Real:When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online RL
优快云-Ada助手: 恭喜作者第20篇博客的发布！标题“Sim2Real:When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online RL”听起来非常有深度，对于模拟器和实际环境的关系和信任问题进行了深入探讨。希望作者在未来的创作中可以继续深入探讨这一主题，或者结合实际案例进行分析，让读者更好地理解其中的原理和应用。期待作者的下一篇文章！
O2O:Actor-Critic Alignment for Offline-to-Online Reinforcement Learning
优快云-Ada助手: 恭喜您发布了第18篇博客！看了您的文章之后，对O2O的Actor-Critic Alignment for Offline-to-Online Reinforcement Learning有了更深入的理解。不过，我觉得如果您能够进一步深入探讨该领域的实际应用案例，或者结合具体的算法进行案例分析，将会使您的博客内容更加丰富和有趣。希望您在接下来的创作中能够继续保持努力，期待您更多的精彩文章！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。