发表时间:18 May 2023
作者单位:Shanghai Jiaotong University
Motivation:受llm和多模态基础模型结合的巨大潜力的启发,我们的目标是开发一般的机器人操作系统。我们能否构建一个类似 ChatGPT 的机器人系统,robotic manipulation, visual goal-reaching, and visual reasoning。
解决方法:本文介绍了 Instruct2Act,这是一个框架,它利用大型语言模型将多模态指令映射到机器人操作任务的顺序动作。具体来说,Instruct2Act 使用 LLM 模型为机器人任务生成构成全面感知、规划和动作循环的 Python 程序。在感知部分,预定义的 API 用于访问多个基础模型,其中 Segment Anything Model (SAM) 准确定位候选对象,CLIP 对它们进行分类。(预定义的API是什么? 可以是任意的视觉模型,比如SAM,clip)。通过这种方式,该框架利用基础模型的专业知识和机器人能力将复杂的高级指令转换为精确的策略代码。
The contributions of our papers can be summarized as follows:
General-purpose robotic system:Instruct2Act,它利用llm的上下文学习能力和多模态指令从自然语言和视觉指令中生成中级决策动作。(middle-level decision-making actions,应该指的就是生成的可以直接调用API的code,不是hilg-level的规划,也不是直接生成low-level的动