谷歌发布开源Dopamine 2.0,让强化学习变得更灵活

谷歌发布Dopamine2.0,这是一个强化学习框架的新版本,提供了更高的灵活性及更多测试环境。该框架支持离散域Gym环境,包含经典控制环境CartPole和Acrobot的默认配置,使研究人员能够在短时间内训练代理并加快研究迭代。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

强化学习(RL)已成为最受欢迎的机器学习领域之一,并且在过去几年中取得了许多重大进展。因此,研究人员和教育工作者越来越需要获得一个清晰可靠的RL研究和教育框架。去年8月,谷歌发布了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。

\n

今天,谷歌发布Dopamine 2.0,为强化学习提供了更高的灵活性以及更多的测试环境。

\n

去年八月,谷歌发布了Dopamine,这是一款灵活的强化学习框架。初始版本专注于特定类型的RL研究:基于 Arcade 学习环境(一个成熟的、易于理解的基准)和四个基于值的代理 DQN、C51、Rainbow 代理的简化版本以及隐式分位数网络代理实现的。

\n

开源地址:https://github.com/google/dopamine

\n

据官方博客介绍:

\n

开发小组收到的最常见的请求之一是对更多环境的支持。这证实了他们在内部看到的情况,在测试新算法时,OpenAI的Gym支持的简单环境非常有用。于是,谷歌正式发布Dopamine 2.0,这一版本包括了对离散域Gym环境(如离散状态和动作)的支持。框架的核心保持不变,只是简单地概括了与环境的接口。为了向后兼容,用户仍然可以下载1.0版本。

\n

此外,新版本还包括两个经典控制环境的默认配置:CartPole和Acrobot;在这些环境中,用户可以在几分钟内训练Dopamine代理。与标准Atari 2600游戏的训练时间(标准GPU上大约5天)相比,这些环境允许研究人员在更大规模的Atari游戏上测试比之前更快地迭代研究思路。新版本还包括一个合作实验室,演示如何在Cartpole和Acrobot上训练代理。最后,GymPreprocessing类为如何将Dopamine与其他自定义环境一起使用提供了示例。

\n

拓展阅读

\n

吊打OpenAI!谷歌重磅开源强化学习框架Dopamine

\n
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

flybirding10011

谢谢支持啊999

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值