本文是LLM系列文章,针对《Large Language Models as Generalizable Policies for Embodied Tasks》的翻译。
摘要
我们展示了大型语言模型(LLM)可以被调整为用于具体视觉任务的可推广策略。我们的方法被称为大型语言模型强化学习策略(LLaRP),它采用预先训练的冻结LLM,将文本指令和视觉自我中心的观察作为输入,并直接在环境中输出动作。通过强化学习,我们训练LLaRP只通过环境互动来观察和行动。我们证明了LLaRP对任务指令的复杂转述是鲁棒的,并且可以推广到需要新的最优行为的新任务。特别是,在1000个看不见的任务上,它实现了42%的成功率,是其他常见学习基线或LLM零样本应用的成功率的1.7倍。最后,为了帮助社区研究语言条件下的、大规模多任务的、具体化的人工智能问题,我们发布了一个新的基准,语言重排,包括150000个语言条件重排的训练和1000个测试任务。LLaRP在看不见的语言重排指令中的视频示例位于https://llm-rl.github.io.
1 引言
2 相关工作
3 方法
4 语言重排问题
5 实验
6 结论
我们介绍了LLaRP,这是一种在强化学