title: A Survey on Vision-Language-Action Models for Embodied AI
视觉-语言-动作模型(VLA)代表一类旨在处理多模态输入的模型,结合视觉、语言和动作模态的信息。
在语言为条件的机器人任务中,策略必须具备理解语言****指令、视觉感知环境并生成适当动作的能力,这就需要VLA的多模态能力。
![[图片]](https://i-blog.csdnimg.cn/direct/859d98fea5dd474785163e5963cf696f.png)
我们介绍了当前机器人系统中分层结构的分类法,包括三个主要部分:预训练、控制策略和任务计划器。预训练技术旨在增强 VLA 的特定方面,如视觉编码器或动力学模型。低级控制策略根据指定的语言命令和感知环境执行低级动作。高级任务规划器将长视距任务分解为可由控制策略执行的子任务。
问题1:如何处理多模态?
从原本的cnn和rnn联合到现在的transformer,在transformer里也有不同的处理方法:
- 单流transformer,所有的模态的token不做区分(生成token肯定还是靠embedding),合到一起去训练。
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision (ViLT) [3]

ViLT是一个简洁

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



