如有错误,欢迎指正
本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
如有侵权,请私信本人。
参考链接:http://www.atyun.com/47688.html
官网:https://openai.com/blog/procgen-benchmark/
github:https://github.com/openai/procgen
论文:https://cdn.openai.com/procgen.pdf
比赛网站:https://www.aicrowd.com/challenges/neurips-2020-procgen-competition
程序生成(简言之为"procgen")是一种通过自动而不是手动手段创建游戏内容的方法
问题:过拟合特定数据集
Procgen Benchmark是一组利用16种程序生成的环境来衡量模型学习通用技能速度的模型。它在初CoinRun工具集基础之上构建,该工具集使用过程生成来构建训练和测试级别集。
Procgen环境的设计具有很大的自由度(受基本设计约束),从而为AI驱动的代理带来了有意义的通用化挑战。还对它们进行了校准,以确保基准代理在训练了2亿个时间步之后可以取得显着进步。
Procgen环境支持两个“经过良好校准”的难度设置:简单和困难。(前者的目标用户是计算能力有限的用户,因为这需要大约八分之一的资源进行训练。)
随着训练集的增长,AI模型的性能通常会提高。
训练和测试表现之间的巨大差距揭示了在按照固定级别的顺序进行环境的训练中一个关键的隐藏缺陷。
在一些环境中,已经观察到代理可以过度适应非常大的训练集。这一证据提出了一种可能性,即过度拟合普遍存在于经典的基准测试中,比如街机学习环境,它长期以来一直是强化学习(RL)的黄金标准。
使用Procgen Benchmark,我们努力实现以下所有目标:实验的便利性、环境内的高多样性和跨环境的高多样性。
我们设计了所有Procgen环境,以满足以下标准:
高多样性:环境

Procgen Benchmark是一组程序生成的游戏环境,用于评估强化学习模型的样本效率和泛化能力。它展示了在固定级别顺序训练环境中的过度拟合问题,强调了通用化和多样化环境的重要性。研究发现,大型模型能提高样本效率和泛化性能,而在随机化的测试集上,代理的表现揭示了训练和测试之间的差距,强调了不同环境分布的训练评估需求。
最低0.47元/天 解锁文章
615





