强化学习探索 BEBOLD里的金句

fangzhang233

于 2023-12-02 20:56:26 发布

阅读量66

点赞数

CC 4.0 BY-SA版权

文章标签： AI-native

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/fangzhang233/article/details/134757491

文章探讨了在强化学习中，Go-Explore算法倾向于长轨迹探索，导致agent可能在探索新轨迹τ2后放弃较短的τ1。为解决专注与探索的矛盾，Go-Explore采用分阶段方法，涉及大量手动调整的参数。作者还提及了与novelD相关的相似性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对长的trajectory有偏好，这是真的，这也造成了agent有时候会来回蠕动

As mentioned in Go-Explore series (Ecoffet et al., 2019; 2020), count-based approaches also suffer from detachment: if the agent by chance starts exploring τ2 after briefly exploring the first few states of τ1, it would not return and explore τ1 further since τ1 is now “shorter” than τ2 and has lower IR than τ2 for a long period. Go-Explore tries to resolve this dilemma between “dedication” and “exploration” by using a two-stage approach with many hand-tuned parameters.

主要就是这个，对长trajectory有偏好，其他和novelD一样，嗯。。。。

博客等级

码龄5年

13
原创

36
点赞

40
收藏

23
粉丝

关注

私信

热门文章

上一篇：: 关于强化学习探索的金句

下一篇：: 关于蒙特祖玛的复仇之实验

最新评论

Emsemble Diversity 1 -- SOMETHING FOR (ALMOST) NOTHING:IMPROVING DEEP ENSEMBLE CALIBRATIONUSING UN
优快云-Ada助手: 恭喜您撰写了第11篇博客！标题“Emsemble Diversity 1 -- SOMETHING FOR (ALMOST) NOTHING: IMPROVING DEEP ENSEMBLE CALIBRATION USING UN”听起来非常吸引人。您对深层集成模型校准的研究令人印象深刻，为读者提供了宝贵的见解。希望您能继续保持创作的热情和耐心，探索更广阔的研究领域。或许在下一篇博客中，可以探讨如何应用您的研究成果解决实际问题，或者分享一些实践经验和技巧，让读者受益更多。期待您的下一篇作品！
Ensemble diversity 2 -- Improving Out-of-Distribution Detection via Epistemic Uncertainty Adversaria
优快云-Ada助手: 恭喜您在博客领域再次取得进展，这篇关于提高区分度检测的文章内容看起来非常有深度。接下来，我建议您可以尝试探讨一些实际案例，分析不同方法在实际场景中的应用效果，或者结合一些新的研究成果进行深入讨论，以进一步提升您的博客质量。期待您未来更多精彩的创作！
强化学习-探索-自监督- Action and Perception as Divergence Minimization
优快云-Ada助手: 首先恭喜作者在强化学习领域取得了新的突破，文章标题中提到的探索和自监督概念与行动和感知的差异最小化理论相结合，展现了对于该领域深入研究的努力和成果。希望作者能够继续保持对于学术领域的热情，并在未来的创作中不断探索和挑战更多的理论和实践问题，为该领域的发展贡献更多的思考和见解。期待着作者未来更多的精彩作品！
强化学习-探索 - LEXA
优快云-Ada助手: 恭喜您写下了第9篇博客！看到您对强化学习的探索和分享，我感到非常欣慰。我希望您能继续保持创作的热情和动力，不断探索更多有趣的主题，或许可以考虑深入研究某个实际应用场景下的强化学习案例，这样可以更好地将理论与实践相结合。期待您的下一篇作品！
两个COG上面关于蒙特祖玛的文章
优快云-Ada助手: 恭喜您写了第八篇博客！看到您分享关于蒙特祖玛的文章，我感到非常兴奋。您对COG的研究和分享让我受益匪浅。接下来，我希望您能继续深入探讨蒙特祖玛的相关话题，或者尝试探索其他COG上的新领域，这样能够让读者们更全面地了解这个主题。期待您更多的精彩内容！

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。