点击下方卡片,关注“具身智能之心”公众号
>>直播和内容获取转到→具身智能之心知识星球
如果语言模型能够做到跨语言抽象知识,那么具身智能是否也能做到跨任务、跨环境地抽象动作的本质?换句话说,我们是否可以让机器人像大语言模型一样,通过“观看视频”自主学习各类任务中动作的共性,忽略硬件差异、拍摄视角、环境细节,从而朝着通用控制的目标迈进?
现有通用机器人方法往往依赖大量动作标注数据,导致能力局限于特定本体且难以迁移。 作者基于这一思考提出 UniVLA,一个统一的视觉-语言-动作(VLA)策略框架。它通过潜在动作模型从视频中提取任务导向的动作表征,高效利用多源异构数据(包括人类视频),实现跨动作空间和场景的知识迁移。这是一条更具前瞻性的路径:不再直接预测每一步动作,而是构建一个任务中心的潜在动作空间,在这个“中间表征”上统一训练与泛化策略,不仅可以有效解决上述瓶颈,同时也能够以更低的计算资源消耗实现更优的效果。核心创新在于构建了以任务为中心的潜在动作空间(Task-Centric Latent Action Space),彻底抛弃了对动作标签的依赖,让模型可以从海量无标签视频中也可以学习任务相关且高效泛化的动作表示,只在人类视频数据(Ego4D)上预训练,也可以在 LIBERO 仿真平台上达到 SOTA 级别效果。经过预训练后同一模型也可以同时完成操作和导航等任务,实现了通用的动作学习。
相比现有方法,UniVLA 仅需 1/20 计算量和 1/10 下游数据,即可超越 OpenVLA 性能,并在操作、导航及真机部署中表现优异,展现了高效、可扩展的机器人策略学习潜力。
论文标题:UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
论文链接:https://arxiv.org/abs/2505.06111
项目主页:https://github.com/OpenDriveLab/UniVLA