Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model

发表时间:18 May 2023

作者单位:Shanghai Jiaotong University

Motivation:受llm和多模态基础模型结合的巨大潜力的启发,我们的目标是开发一般的机器人操作系统。我们能否构建一个类似 ChatGPT 的机器人系统,robotic manipulation, visual goal-reaching, and visual reasoning。

解决方法:本文介绍了 Instruct2Act,这是一个框架,它利用大型语言模型将多模态指令映射到机器人操作任务的顺序动作。具体来说,Instruct2Act 使用 LLM 模型为机器人任务生成构成全面感知、规划和动作循环的 Python 程序。在感知部分,预定义的 API 用于访问多个基础模型,其中 Segment Anything Model (SAM) 准确定位候选对象,CLIP 对它们进行分类。(预定义的API是什么? 可以是任意的视觉模型,比如SAM,clip)。通过这种方式,该框架利用基础模型的专业知识和机器人能力将复杂的高级指令转换为精确的策略代码。

The contributions of our papers can be summarized as follows:

General-purpose robotic system:Instruct2Act,它利用llm的上下文学习能力和多模态指令从自然语言和视觉指令中生成中级决策动作。(middle-level decision-making actions,应该指的就是生成的可以直接调用API的code,不是hilg-level的规划,也不是直接生成low-level的动

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming_Chs

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值