NeurIPS强化学习挑战赛冠军揭晓

部署运行你感兴趣的模型镜像

NeurIPS强化学习挑战赛冠军揭晓

某中心云服务赞助了本次挑战赛,并为参赛者提供了数据准备、处理以及模型训练、部署和测试所需的资源。

比赛概况

竞赛是年度NeurIPS会议计划的重要组成部分。今年接受的16个竞赛中,有四分之一专注于推动深度强化学习的科学进展。近年来,强化学习在游戏、自动驾驶、电网管理等领域取得了突破性进展。

某中心SageMaker RL团队很荣幸与AIcrowd合作,为Procgen挑战赛提供训练和评估支持。该挑战赛要求参赛者开发新的强化学习模型,以最大化样本效率和泛化能力。

技术架构

某中心SageMaker RL团队开源了基于AnyScale的Ray RLlib的入门笔记本,这是一个使用Ray分布式学习框架实现强化学习应用的库。通过某中心SageMaker笔记本实例,参赛者能在不到一小时内获得结果,成本仅为几美元。

挑战赛设有两个赛道——泛化能力和样本效率,包含三轮比赛,吸引了82个团队的500多名参与者。在整个比赛期间,使用某中心SageMaker评估了172,000个模型。

获胜团队解决方案

泛化能力赛道获胜团队:Dipam Chakraborty和Nhat Quang Tran

  • 对原始PPG算法进行了多项修改
  • 在从未见过的环境中实现了最佳泛化性能
  • 使用了超参数调优优化方法

样本效率赛道获胜团队:Adrien Gaidon和Blake Wulfe

  • 在辅助阶段使用数据增强,但在策略阶段不使用
  • 实验了奖励归一化和奖励塑形技术
  • 实现了最佳的样本效率,训练速度最快

技术背景

该挑战赛基于OpenAI Procgen基准测试,包含16个程序生成的gym环境,直接衡量强化学习代理学习可泛化技能的速度。每个Procgen环境都是程序生成的,要求代理泛化到从未见过的情况。

Procgen环境设计轻量且易于使用,计算资源有限的参与者可以轻松复现基线结果并运行新实验。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo-v5

Yolo

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值