具身智能论文综述详读

title: A Survey on Vision-Language-Action Models for Embodied AI

视觉-语言-动作模型(VLA)代表一类旨在处理多模态输入的模型,结合视觉、语言和动作模态的信息。

在语言为条件的机器人任务中,策略必须具备理解语言****指令视觉感知环境生成适当动作的能力,这就需要VLA的多模态能力。

[图片]

我们介绍了当前机器人系统中分层结构的分类法,包括三个主要部分:预训练、控制策略和任务计划器。预训练技术旨在增强 VLA 的特定方面,如视觉编码器或动力学模型。低级控制策略根据指定的语言命令和感知环境执行低级动作。高级任务规划器将长视距任务分解为可由控制策略执行的子任务。

问题1:如何处理多模态?

从原本的cnn和rnn联合到现在的transformer,在transformer里也有不同的处理方法:

  1. 单流transformer,所有的模态的token不做区分(生成token肯定还是靠embedding),合到一起去训练。

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision (ViLT) [3]

在这里插入图片描述

ViLT是一个简洁

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值