Auto MC-Reward：使用LLM进行Minecraft智能体稠密奖励函数设计 | CVPR 2024

原创

于 2024-10-10 19:52:31 发布 · 1.1k 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习

Minecraft是强化学习研究的重要环境，其本身仅提供稀疏的二进制值奖励函数，这使得在这类环境进行高效探索充满挑战性，智能体难以学习复杂任务。

为了解决这一问题，我们提出了 Auto MC-Reward 方法，利用大型语言模型（LLMs）自动设计稠密奖励函数，从而提高学习效率。Auto MC-Reward 包括三个组成部分：奖励设计模块、奖励评估模块和轨迹分析模块。首先，奖励设计模块根据环境信息和任务描述编写可执行Python代码形式的奖励函数。然后，奖励评估模块评估代码是否自洽且无语法和语义错误。生成的奖励函数用于训练智能体，轨迹分析模块根据智能体在实际游戏环境中的轨迹，总结可能的失败原因并提供改进建议。在下一轮中，奖励设计模块将根据反馈进一步优化和迭代稠密奖励函数。

实验表明，该方法相比于比原始稀缺奖励和现有的稠密奖励方法，在 Minecraft 中复杂任务的成功率和学习效率显著提高，例如在地下高效寻找钻石并躲避岩浆、在平原上高效地寻找稀疏的树木和动物等。此外，Auto MC-Reward 在仅有游戏原始信息的情况下实现了较高的钻石获取成功率（36.5%），展示了其解决长程任务的能力。

论文链接：https://arxiv.org/abs/2312.09238

1 动机

Minecraft已成为研究高效强化学习（RL）的重要环境，对于研究开放世界智能体有着重要意义，其奖励的稀缺性和决策空间的巨大复杂性为 RL

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。