Auto MC-Reward:使用LLM进行Minecraft智能体稠密奖励函数设计 | CVPR 2024

Minecraft是强化学习研究的重要环境,其本身仅提供稀疏的二进制值奖励函数,这使得在这类环境进行高效探索充满挑战性,智能体难以学习复杂任务。

为了解决这一问题,我们提出了 Auto MC-Reward 方法,利用大型语言模型(LLMs)自动设计稠密奖励函数,从而提高学习效率。Auto MC-Reward 包括三个组成部分:奖励设计模块、奖励评估模块和轨迹分析模块。首先,奖励设计模块根据环境信息和任务描述编写可执行Python代码形式的奖励函数。然后,奖励评估模块评估代码是否自洽且无语法和语义错误。生成的奖励函数用于训练智能体,轨迹分析模块根据智能体在实际游戏环境中的轨迹,总结可能的失败原因并提供改进建议。在下一轮中,奖励设计模块将根据反馈进一步优化和迭代稠密奖励函数。

实验表明,该方法相比于比原始稀缺奖励和现有的稠密奖励方法,在 Minecraft 中复杂任务的成功率和学习效率显著提高,例如在地下高效寻找钻石并躲避岩浆、在平原上高效地寻找稀疏的树木和动物等。此外,Auto MC-Reward 在仅有游戏原始信息的情况下实现了较高的钻石获取成功率(36.5%),展示了其解决长程任务的能力。

图片

论文链接:https://arxiv.org/abs/2312.09238

1 动机

Minecraft已成为研究高效强化学习(RL)的重要环境,对于研究开放世界智能体有着重要意义,其奖励的稀缺性和决策空间的巨大复杂性为 RL

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值