论文阅读笔记——OpenVLA: An Open-Source Vision-Language-Action Model

OpenVLA 论文
在这里插入图片描述

OpenVLA 是一种具有 70 亿参数的开源视觉-语言-动作模型(Vision-Language-Action, VLA),旨在将视觉感知、语言理解和机器人动作控制无缝结合。其核心是一个预训练的视觉条件语言模型(Vision-Conditioned Language Model),通过在 Open-X Embodiment 数据集上进行微调,该数据集包含了 970k 条多样化的机器人操作轨迹,涵盖了广泛的场景和任务。OpenVLA 的架构和训练方法使其在机器人操作和多模态任务中展现出强大的潜力。

与 Octo 等先前的工作不同,OpenVLA 采用了一种更为端到端的方法。Octo 等模型通常由预训练的组件(如语言嵌入或视觉编码器)组成,并与从头初始化的附加模型组件结合,在策略训练过程中学习如何将这些组件“拼接”在一起。相比之下,OpenVLA 直接对视觉-语言模型(VLM)进行微调,通过将机器人动作视为语言模型词汇中的 token 来生成机器人动作。这种方法不仅简化了模型架构,还增强了多模态任务中的一致性和泛化能力。
在这里插入图片描述
最近的 VLM 架构一般涵盖:

  1. 一个视觉编码器,将图像输入映射为多个“图像块嵌入”
  2. 一个投影器,将视觉编码器的输出嵌入映射到语言模型的输入空间
  3. 一个大型语言模型LLM骨干

作者将机器人

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值