Minecraft是强化学习研究的重要环境,其本身仅提供稀疏的二进制值奖励函数,这使得在这类环境进行高效探索充满挑战性,智能体难以学习复杂任务。
为了解决这一问题,我们提出了 Auto MC-Reward 方法,利用大型语言模型(LLMs)自动设计稠密奖励函数,从而提高学习效率。Auto MC-Reward 包括三个组成部分:奖励设计模块、奖励评估模块和轨迹分析模块。首先,奖励设计模块根据环境信息和任务描述编写可执行Python代码形式的奖励函数。然后,奖励评估模块评估代码是否自洽且无语法和语义错误。生成的奖励函数用于训练智能体,轨迹分析模块根据智能体在实际游戏环境中的轨迹,总结可能的失败原因并提供改进建议。在下一轮中,奖励设计模块将根据反馈进一步优化和迭代稠密奖励函数。
实验表明,该方法相比于比原始稀缺奖励和现有的稠密奖励方法,在 Minecraft 中复杂任务的成功率和学习效率显著提高,例如在地下高效寻找钻石并躲避岩浆、在平原上高效地寻找稀疏的树木和动物等。此外,Auto MC-Reward 在仅有游戏原始信息的情况下实现了较高的钻石获取成功率(36.5%),展示了其解决长程任务的能力。

论文链接:https://arxiv.org/abs/2312.09238
1 动机
Minecraft已成为研究高效强化学习(RL)的重要环境,对于研究开放世界智能体有着重要意义,其奖励的稀缺性和决策空间的巨大复杂性为 RL

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



