1. VLA是什么
2023年7月28日,Google DeepMind推出了Robotic Transformer 2(RT-2),这是一种创新的视觉-语言-动作(Vision-Language-Action, VLA)模型,能够从网络和机器人数据中学习,并将所学知识转化为通用的机器人控制指令。VLA是一种多模态模型,其中一些专注于通过预训练来提升特定组件的性能,而其他模型则致力于开发能够预测低级动作的控制策略。某些VLA模型则充当高级任务规划器,能够将复杂的长期任务分解为可执行的子任务。在过去几年中,众多VLA模型的出现反映了具身智能的迅速发展。
VLA是一类专门设计用于处理多模态输入的模型,通过结合视觉和语言处理,VLA 模型可以解释复杂的指令并在物理世界中执行动作。VLA模型的开发旨在应对具身智能中的指令跟随任务。与以ChatGPT为代表的聊天AI不同,具身智能需要控制物理实体并与环境进行互动,机器人是这一领域的典型应用。在语言驱动的机器人任务中,策略必须具备理解语言指令、感知视觉环境并生成适当动作的能力,这正是VLA多模态能力的体现。与早期的深度强化学习方法相比,基于VLA的策略在复杂环境中展现出更强的多样性、灵活性和泛化能力,使其不仅适用于工厂等受控环境,也适合日常生活中的任务。
得益于预训练的视觉基础模型、大语言模型(LLMs)和视觉-语言模型(VLMs)的成功,VLA模型在应对这些挑战方面展现了其潜力。最新的视觉编码器提供的预训练视觉表征,使得VLA模型在感知复杂环境时能够更准确地估计目标类别、姿态和几何形状。随着语言模型能力的提升,基于语言指令的任务规范也变得可行。基础VLMs探索了多种将视觉模型与语言模型整合的方法,如BLIP-2和Flamingo等,这些不同领域的创新为VLA模型解决具身智能的挑战提供了强有力的支持。

VLA模型的分类(https://arxiv.org/pdf/2405.14093)
VLA模型通常是通过大规模的真实世界机器人演示数据集进行监督式学习或者半监督学习。此外,还可以结合模拟环境下的强化学习来进一步提升模型的表现力。在训练过程中,研究人员会采用各种正则化技术和优化算法(如Adam优化器)以防止过拟合,并加速收敛速度。因此数据集对于具身智能的训练效果有着至关重要的影响,提高训练效果的根源在于使用丰富多样的数据集,如由斯坦福大学、加州大学伯克利分校、谷歌DeepMind以及丰田研究院联合开发的OpenVLA就使用了一个包含约97万个真实世界机器人演示的数据集来进行训练。然而,数据集的数据采集过程复杂且成本高昂,数据标注工作往往需要专业知识和大量的人工劳动。本期整数干货就为大家汇总了一些VLA训练数据集,方便大家选取适合的开展研究。
2. VLA开源数据集有哪些
2.1. RoboNet
-
发布方:UC Berkeley; Stanford University; University of Pennsylvania; CMU
-
下载地址:https://github.com/SudeepDasari/RoboNet/wiki/Getting-Started
-
简介:一个用于共享机器人经验的开放数据库,它提供了来自 7 个不同机器人平台的 1500 万个视频帧的初始池,并研究了如何使用它来学习基于视觉的机器人操作的通用模型。


最低0.47元/天 解锁文章
1869

被折叠的 条评论
为什么被折叠?



