标题:Pure Vision Language Action (VLA) Models: A Comprehensive Survey
作者:Dapeng Zhang1,2, Jing Sun2, Chenghui Hu2, Xiaoyan Wu2, Zhenlong Yuan3, Rui Zhou2, Fei Shen1, and Qingguo Zhou2
机构:
新加坡国立大学
兰州大学
中科院计算所
原文链接:https://arxiv.org/pdf/2509.19012v2
1. 介绍
机器人学长期以来一直是科学研究中的重要领域。早期的机器人主要依赖预编程的指令和人工设计的控制策略来完成任务分解与执行。这类方法通常应用于简单、重复性的任务,例如工厂流水线和物流分拣。近年来,人工智能的快速发展使研究者能够在图像、文本和点云等多模态数据中,利用深度学习的特征提取与轨迹预测能力。通过结合感知、检测、跟踪和定位等技术,研究者将机器人任务分解为多个阶段,以满足执行需求,从而推动了具身智能与自动驾驶的发展。然而,大多数机器人仍然作为孤立的智能体存在,它们通常为特定任务而设计,缺乏与人类和外部环境的有效交互。
为克服这些局限性,研究者开始探索将大语言模型(LLMs)与视觉语言模型(VLMs)引入机器人操作中,以实现更精准和灵活的控制。现代的机器人操作方法通常依赖视觉-语言生成范式(如自回归模型 或扩散模型),并结合大规模数据集 以及先进的微调策略。我们将这些方法称为 VLA基础模型,它们显著提升了机器人操作的质量。对生成内容进行细粒度的动作控制,使用户获得更大的灵活性,从而释放了VLA 在任务执行中的实际潜力。
图1:VLA 综述的组织与结构 尽管 VLA 方法展现了巨大潜力,但针对纯 VLA方法的综述仍然十分稀缺。现有综述要么集中在 VLM基础模型的分类上,要么提供对机器人操作的整体性回顾。首先,VLA方法在机器人学中仍是一个新兴领域,尚未形成明确的方法学格局或公认的分类体系,这使得系统性总结变得具有挑战性。其次,当前综述往往依据基础模型的差异对VLA方法进行分类,或者覆盖整个机器人学发展历史的全面分析,但往往更强调传统方法而忽视新兴技术。虽然这些综述提供了有价值的见解,但大多仅对机器人模型进行粗略的审视,或主要聚焦于基础模型,从而在纯VLA 方法的研究上留下了显著的空白。
图2:各种VLA骨架的示意图 在本文中,我们对 VLA方法及相关资源进行了研究,提供了一个聚焦而全面的综述。我们的目标是提出清晰的分类体系,系统性地总结VLA 研究,并阐明该领域快速演进的发展轨迹。在简要回顾 LLM 与 VLM的背景之后,我们重点讨论 VLA模型的策略设计,突出以往研究中的独特贡献与方法学特征。我们将 VLA方法划分为四类:自回归范式、扩散范式、强化学习范式、混合与特定领域方法,并对其动机、核心策略和机制进行深入分析。如图[2]所示,我们展示了这些方法的 VLA框架。我们进一步考察了其在机械臂、四足机器人、类人机器人以及轮式机器人(自动驾驶车辆)等领域的应用,全面评估了VLA 在不同场景中的部署情况。鉴于 VLA模型对数据集与仿真平台的高度依赖,我们对相关资源进行了简要综述。最后,基于当前VLA的研究格局,我们识别了关键挑战,并提出未来研究方向的展望------包括数据局限性、推理速度与安全性等,以推动VLA 模型与通用机器人学的进一步发展。
本文整体结构如图 [1]所示:首先,第[2]节介绍 VLA研究的背景;第[3]节呈现现有 VLA 方法;第[4]节介绍 VLA方法所使用的数据集与基准测试;第[5]节与第[6]节分别讨论仿真平台与机器人硬件;第[7]节进一步探讨VLA方法在机器人学中的挑战与未来方向。最后,我们对全文进行总结,并对未来发展提出展望。
综上,本文的主要贡献如下:
-- 提出了结构化的纯 VLA方法分类体系,并基于动作生成策略对方法进行归类,从而帮助理解现有方法并揭示该领域的核心挑战。
-- 强调各类方法的独特特征与方法学创新,提供了对现有研究的清晰视角。
-- 系统性地梳理了 VLA 模型训练与评估所依赖的资源(数据集、基准测试与仿真平台)。
-- 探讨了 VLA在机器人学中的实际影响,识别了现有技术的主要局限,并提出潜在的研究方向。
图3:视觉语言动作分类法:从基于自回归、基于扩散到基于强化学习以及混合/专业化方法,视觉语言动作(VLA)的多范式进展和实际应用。该分类法按照时间线进行组织 2. 背景
视觉-语言-动作(Vision Language Action,VLA)模型的出现,标志着通用具身智能迈出了重要一步。传统的机器人系统通常依赖于孤立的感知流水线、人工设计的控制策略,或任务特定的强化学习方法。尽管这些方法在受限环境(如工厂车间或实验室)中表现良好,但在动态和非结构化环境下的泛化能力却较差。现代机器人可以通过计算机视觉模型"看",通过大语言模型"理解",并通过控制器或学习得到的策略"行动";然而,将这些能力整合为一个统一且连贯的系统仍然是一个关键挑战。VLA模型通过提供一个统一框架,将语言与感知相结合并映射为可执行的动作,从而回应了这一挑战。
2.1 早期:LLM/VLM 基础模型
单模态建模的突破为多模态整合奠定了方法学和工程基础。在计算机视觉中,卷积神经网络(如AlexNet 、ResNet)确立了从局部卷积到深度残差学习的表征范式,这一方向进一步被 VisionTransformer (ViT) 推动。ViT将自注意力机制引入图像领域,显著提升了模型的可迁移性与泛化能力。在自然语言处理中,Transformer架构使大规模预训练与对齐技术成为可能,催生了 BERT 、GPT 、T5 以及 GPT-4等模型,它们展现了强大的推理能力、指令跟随能力以及上下文学习能力。与此同时,强化学习推动了策略优化与序列决策的发展,从DQN、PPO 到 Decision Transformer,体现了通过序列建模实现控制的统一视角。
在此背景下,视觉语言模型(VLMs)成为单模态学习与具身智能之间的重要桥梁。早期方法(如ViLBERT 、VisualBERT )通过双流或单流 Transformer将图像与文本进行对齐和融合,而对比学习方法(如CLIP)则将大规模图像-文本对映射到共享嵌入空间,使模型具备零样本和小样本的识别与检索能力。近年来,基于指令调优、对话中心的多模态模型(如BLIP-2 、Flamingo 、LLaVA)显著增强了开放式跨模态理解、细粒度语义对齐以及多轮推理能力,为视觉-语言-动作(VLA)系统奠定了基础。
2.2 现状:VLA 模型的发展
2.2.1 从 LLM/VLM 到 VLA 模型
沿着这一发展轨迹,研究自然地迈向 VLA集成,它在单一的序列建模框架下统一了视觉感知、语言理解与可执行控制。典型的设计方式是将图像与指令编码为前缀或上下文token,引入机器人状态与传感器反馈作为状态 token,并自回归生成动作 token以产生控制序列,从而闭合感知-语言-动作的 循环。与传统的感知、规划与控制流水线相比,VLA提供了端到端的跨模态对齐,并在目标、约束和意图上实现统一建模。它继承了VLM的语义泛化与指令泛化能力,而显式的状态耦合与动作生成则增强了系统对环境扰动和长时任务的鲁棒性。这一演进过程------从单模态到多模态,再到多模态加可执行控制------奠定了系统"能看、能理解、能行动"的方法学基础。
2.2.2 数据与仿真的支撑作用
视觉-语言-动作(VLA)模型在机器人学中的发展高度依赖于高质量的数据集与能够反映现实复杂性的逼真仿真器。现代机器人方法通常基于深度学习并以数据驱动,因此数据集的采集与标注在推动该领域发展中起着至关重要的作用。一些数据集采集自真实世界环境,这往往需要大量的人力与经济 成本。为应对这些挑战,研究者还利用来自互联网的大规模人类操作视频作为泛化数据集,为VLA模型训练提供辅助监督。尽管如此,数据采集仍然代价高昂,标注过程劳动密集,且长尾与极端情况往往代表性不足。另一类数据集则通过机器人仿真器生成,从而支持大规模标注数据的获取。仿真器 提供了多样且可控的环境、灵活的传感器配置、逼真的运动学模型以及交互式静态与动态场景,既支持数据采集,也支持模型评估。代表性数据集包括Open X-Embodiment (OXE) ,它整合了来自 21 个机构的 22个机器人数据集,涵盖 527 项技能与 160,266 个任务;以及 BridgeData ,包含10 个环境中 71 个任务。此类资源标准化了数据格式,从而促进了 VLA研究的快速发展与可复现性。THOR 、Habitat 、MuJoCo 、Isaac Gym 与 CARLA等仿真平台提供了可扩展的虚拟环境,能够生成多模态标注,包括动作轨迹、物体状态与自然语言指令。这些数据集与仿真平台共同缓解了真实机器人数据的稀缺性,加速了VLA 模型的训练与评估。
2.3 展望:通用具身智能
VLA模型位于视觉、语言与动作交汇的研究前沿。它们建立在感知与推理基础模型的突破之上,强调人机交互与任务执行能力,并将这些能力延伸至物理世界。通过结合视觉编码器的表征能力、大语言模型的推理能力以及强化学习与控制框架的决策能力,VLA模型展现出弥合"感知--理解--行动"鸿沟的重要潜力。尽管在可扩展性、泛化性、安全性以及现实部署方面仍面临挑战,VLA仍被普遍认为是具身人工智能的关键前沿。虽然 VLA在视觉-语言-动作交互方面已取得显著成果,并受益于大规模语言模型的进展,但它尚未在具身智能领域实现全面通用化。通用具身智能认为,人类般的智能行为 不仅依赖于认知处理,还依赖于物理身体、环境感知与反馈机制,从而实现与外部世界的交互。为适应多样化任务的需求,通用具身智能可以通过不同类型的机器人体现,例如应用于家庭场景的人形机器人、拥有灵巧操作手臂的装配机器人,以及具备特殊能力的仿生机器人。显然,通用具身智能有潜力使人工系统能够在多样化环境中执行更广泛的任务。当前,VLA正在朝着这一通用具身智能的愿景演进,并展现出实现这一目标的巨大潜力。
3. 视觉-语言-动作模型
近年来,视觉-语言-动作(VLA)模型在多模态表征学习、生成式建模与强化学习的共同推动下实现了快速而系统的发展。为追溯这一演进,本节回顾VLA的主要方法学范式,包括基于自回归的建模、基于扩散的建模、强化学习策略,以及混合或特定化设计。图[3]给出了这些范式沿时间轴演进的"树状"示意图,每个分支对应其各自谱系中的代表性工作。该分类按时间顺序组织,强调方法创新如何持续拓展VLA 模型的能力边界。
3.1 自回归范式在 VLA 中的研究
在视觉---语言---动作(VLA)任务中,基于自回归的模型是经典而有效的序列生成范式。通过将动作序列视为时间相关的过程,这类模型在先验上下文、感知输入与任务提示的条件下,逐步生成动作。伴随Transformer 架构的快速发展,近期的 VLA 系统 展示了该范式在可扩展性与鲁棒性方面的 优势。
这些方向的代表性工作在图[4]中进行了汇总,整体体现了自回归建模在VLA研究中的通用性与多样性。
图4:基于自回归模型的代表性著作 3.1.1 通用型自回归 VLA 方法
面向"通用体"的 VLA研究,将感知、任务指令与动作生成统一到自回归序列建模之中。通过对多模态输入进行token 化,这些模型能够在异构任务间实现逐步的动作生成。早期的 Gato 证明了对异构模态进行统一 token化并进行联合训练的可行性。随后,RT-1/RT-2依托大规模真实世界数据与网络级预训练扩展了规模;PaLM-E将预训练语言知识注入具身控制,确立了自回归 Transformer作为统一模型的实用路径。为应对具身差异化,Octo 、LEO 与 UniAct等框架,通过将视觉---语言模态与通用动作抽象对齐,以实现跨平台兼容。近期的进展聚焦于"推理集成"与"效率化":模型将动作生成与语言推理、自适应提示结合以支持长时规划;同时,NORA 与 RoboMM 等轻量化设计面向部署约束。
总体而言,通用体 VLA 的研究已从早期的"统一 token化"迈向"大规模真实训练与语义落地",并进一步走向"跨平台通用、推理融合、效率导向"的设计。这一轨迹体现了从概念验证向"可扩展、具语义推理与易部署"的系统演进。图[4] (A)总结了代表性的自回归通用体代理与其关键贡献。不过,安全性、可解释性以及与人类价值对齐等问题仍未得到充分解决,仍有广阔的研究空间。
3.1.2 基于 LLM 的自回归推理与语义规划
将 LLM 引入VLA,使其从被动的输入解析器演进为语义中介,使得面向长时与可组合任务的"推理驱动控制"成为可能。本节回顾基于LLM 的推理从语义中介到分层规划,再到平台级编排的演进脉络。为向 VLA 注入推理能力,Inner Monologue提出了"自言自语"式的推理范式,结合行动前规划与行动后反思;Prompt-to-Walk、RoboFlamingo与 RoboMM 则在行走与操作任务中展示了语言表示的跨域适配。
随后的方法通过反馈与层级规划增强了适应性:Interactive Language支持实时纠正,Open-Ended Instructable Agents 利用情景记忆,Hi Robot采用层级规划来处理长指令。MissionGPT、Mobility VLA 与 NORA强调轻量化部署与对话驱动的可适应性。层级化框架将语义规划与控制器结合以实现灵巧操作 ;InSpire、From Foresight to Forethought 与 CoT-VLA 强调运行时稳定性与链式思维机制。自回归式推理架构通常将附加信息"打补丁"式地注入序列输入,并据此进行后续推理。这类模型可处理不同长度的输入;其强大的"上下文学习"能力使其能够在统一结构下处理多种模态。面向无人机的 CognitiveDrone 与 UAV-VLA强调空域导航与基于卫星信息的规划;OneTwoVLA则关注推理---行动的自适应切换与异构控制空间的抽象。
与上述方法相对,系统化与平台化的努力正在汇聚这些进展:Gemini Robotics 与Agentic Robot 将 LLM定位为具身流水线的核心编排器; 0.5 与 fast面向开放世界可扩展性与高效 token 化。VLA Model--Expert Collaboration 与LLaRA 等工作探索协作机制与辅助任务,以改善从 VLM 到 VLA的迁移。总体来看,LLM 驱动的 VLA推理已从语义中介走向交互式与层级化规划、跨模态扩展以及一体化平台。
尽管基于 LLM 的 VLA推理已从语义中介演进至交互式与层级规划、跨模态扩展与平台集成,但仍存在诸多挑战,包括幻觉抑制、多模态对齐、推理稳定性以及实时安全等。图[4] (B) 汇总了代表性研究及其贡献。
3.1.3 自回归轨迹生成与视觉对齐建模
自回归的轨迹建模在强化"感知---行动"映射的同时,确保视觉---语言的语义对齐。此类模型在多模态观测的条件下解码运动轨迹或控制token,为"语义对齐的指令跟随与动作执行"提供了统一机制 。
早期的 LATTE 证明了"语言到轨迹"的直接映射可行性,启发了多模态拓展。借助大规模预训练,VIMA 与 InstructRL 表明语言、视觉与动作的联合 token化能够支持跨任务强泛化,但多在仿真中验证。与此同时,MOO 与一系列 GPT基座方法 利用预训练的视觉---语言骨干实现开放世界泛化与轻量轨迹生成,提示语义先验可降低对机器人特定预训练的依赖。
第二条路线探索视频预测与世界模型。GR-1/2 将视频生成预训练迁移至机器人领域;CronusVLA 与 WorldVLA 改善了时间一致性。TraceVLA 与 Uni-NaVid 进一步引入长时提示,整体上从短视野解码转向"预测式的环境建模"。
自回归方法已适配多种具身形态,从四足行走到双臂协作,展现了视觉---语言---动作框架的灵活性 。OpenVLA等大规模工作强调了跨平台泛化与高效适配,而潜运动 token 路线 指向轻量化预训练策略。
在操作之外,自回归轨迹生成也扩展至自动驾驶:最新模型通过将视觉与语言对齐到轨迹预测上,实现了闭环控制,且常在无 HD 地图或 LiDAR 的设定下工作 。类似原理也被用于移动操作与无人机规划 ,凸显了该范式在多种机器人平台上的通用性。
研究者还将自回归框架扩展至更细粒度的感知与更丰富的模态。近期模型强调通过稳健的预训练管线实现精细操作 ;触觉---语言---动作一体化 使得"接触丰富"的交互成为可能。并行方向利用 3D/4D感知将空间结构注入自回归解码中 ,进一步拓展了多模态版图。
综上,自回归轨迹生成已从"语言直达轨迹"走向覆盖"多模态预训练、视频驱动世界建模、具身特定架构与跨模态感知"的广阔生态(见图[4] )。这些进展展示了自回归作为统一机制在VLA中的可扩展性与多样性。但在长时稳定性、噪声输入下的语义对齐、以及物理机器人上的高效部署方面仍存挑战。未来工作应优先推进"预测建模与低层控制"的稳健闭环耦合,并探索自回归策略与高层推理模块(如LLM 规划器)的协同,以迈向可靠的通用具身智能。
3.1.4 结构优化与高效推理机制
在自回归 VLA研究中,结构优化与高效推理是实现可扩展部署与实时控制的关键。除准确率外,核心挑战在于如何降低计算冗余、缩短推理时延,并在多样化机器人场景下保持鲁棒性。
一条重要方向是层级化与模块化优化。早期的 HiP 表明,将任务分解为符号规划、视频预测与动作执行,有助于在自回归模型中实现长时推理。后续设计------从高效观测骨干、动作分块,到轨迹感知注意力与频域分解 ------进一步说明模块化结构可在保留泛化的同时显著降低计算量。
第二条路线强调动态与自适应推理。DeeR-VLA 能依据任务复杂度提前终止解码;而 FAST 等 token高效设计则将长动作序列压缩为可变长度token。二者共同表明,自适应计算可以在较小精度损失下显著提升实时响应性。
第三类工作强调轻量化压缩与并行化。量化与层跳过方法 通过降低数值精度与动态激活部分层,显著削减计算;与此同时,并行解码与冗余消减策略无需再训练即可加速推理,凸显结构压缩与自适应推理的互补性。
效率同样体现在传感器融合与时间复用中。体素化空间建模 、自适应 KV 缓存 与感知适配 等面向领域的优化,减少冗余计算同时提升鲁棒性。
值得注意的是,一些工作将效率与多模态推理相融合。OTTER 在视觉编码阶段注入语言感知;ChatVLA 采用分阶段耦合与专家混合路由。其他进展------从基于扩散的目标生成 、量化 ,到超长时域的层级反馈 ------展示了如何在效率与可扩展性之间取得平衡。
总之,自回归 VLA的结构优化与高效推理,已从早期的层级分解发展到自适应计算、轻量压缩、缓存机制与多模态感知融合(见图[4] (D))。这些方法针对长序列依赖与计算冗余问题,带来了在基准与真实部署中的显著收益。展望未来,应推进软硬件协同优化、智能调度与稳健的安全机制,以确保朝向通用具身智能的可扩展与可靠进展。
3.1.5 结论
创新 基于自回归的模型通过在可扩展的 Transformer 架构中统一多模态感知、语言推理与序列化动作生成,推动了 VLA研究的重要创新。它们支持能够跨任务泛化的通用体代理,通过引入 LLM实现语义规划,并将轨迹生成拓展至长时与多模态场景;同时,诸如 token压缩、并行解码与量化等结构优化,为真实世界部署带来了效率提升。
限制 自回归解码会引入误差累积与时延;在噪声或不完整输入下,多模态对齐可能变得脆弱;而扩展大模型常需高昂的计算与数据成本。此外,推理驱动的方法仍面临幻觉、稳定性与可解释性等挑战效率机制有时也会牺牲准确性或通用性。要解决这些问题,需要在"推理---控制"之间建立更紧密的耦合,在真实世界不确定性下提升鲁棒性,并开展面向硬件的优化以在可扩展性与实际部署之间取得平衡。
3.2 扩散范式在 VLA 中的研究
扩散模型(包括流匹配、VAE等)已成为生成式人工智能中的重要范式,并在具身智能的视觉-语言-动作(VLA)框架中展现出巨大潜力。本小节回顾了扩散模型在VLA 系统中的演进,重点讨论三个关键维度。
代表性作品汇总见图[5].
图5:基于扩散模型的代表性作品 扩散模型(包括流匹配、VAE等)已成为生成式人工智能中的重要范式,并在具身智能的视觉-语言-动作(VLA)框架中展现出巨大潜力。本小节回顾了扩散模型在VLA 系统中的演进,重点讨论三个关键维度。
3.2.1 通用型扩散 VLA 方法
将扩散模型引入 VLA系统,使机器人动作生成从确定性回归转向概率生成策略。通过将动作生成建模为条件去噪,基于扩散的方法能够自然地表示多样化的动作分布,从而在相同观测条件下生成多条合理的轨迹 。一个重要方向是引入更丰富的表征结构。几何感知方法将 SE(3)约束嵌入扩散过程,超越欧氏空间,在三维环境中联合优化抓取与运动 ,从而保证动作的物理一致性。与此同时,将策略学习重新解释为视频生成 ,利用视频的时间丰富性来支持长时规划与跨模态语义对齐。 扩展性研究如 RDT-1B 展示了在双臂操作中结合时间与环境条件的轨迹级扩散方法,能够实现零样本泛化。时间一致性问题则通过统一速度场建模 或基于历史条件与高效缓存的实时部署 来缓解。这些进展标志着三方面的转变:从确定性到概率生成、从欧氏空间到几何感知表征、从监督式到自监督式范式。作为生成式建模的重新框定,扩散方法支持多任务泛化、小样本适应以及自然语言接口。图[5] (A) 总结了相关架构选择与训练策略。然而,在动态环境变化下,时间一致性仍较为脆弱。
3.2.2 基于扩散的多模态架构融合
在 VLA 系统中引入 Transformer推动了视觉、语言与动作的统一建模,突破了传统的模块化流水线,能够捕捉具身智能中复杂的跨模态依赖。在这一趋势中,将 Transformer与扩散模型结合尤为关键,因为注意力机制与生成建模天然互补。大规模框架如Dita 与 Diffusion Transformer Policy 证明,将注意力结构扩展至动作建模显著提升了连续动作生成能力,其自注意力归纳偏差与机器人行为的组合性高度契合。核心挑战不在于架构规模化,而在于如何在保留模态特性的同时实现异质模态的融合。视觉、语言与本体感知在时间粒度、语义与处理需求上存在差异,这既创造了丰富上下文的机会,也带来了削弱模态优势的风险。为此,M-DiT 等 token 空间对齐方法将多样信号映射为统一表征,使条件扩散 Transformer能灵活支持任意目标与观测的组合,这是迈向通用机器人学的重要一步。
面向特定领域的设计如 ForceVLA 将力觉视为核心模态,利用力觉感知的专家混合机制将触觉反馈与视觉-语言嵌入结合,显著提升了接触丰富场景下的操作性能。近期研究还在扩散策略中引入显式推理。Diffusion-VLA 提出自生成推理模块,用于产生符号表示;CogACT 则利用语义场景图,实现了感知、推理与控制的一体化。
预训练模型的迁移也逐渐普及,例如利用图像编辑模型实现零样本操作 ,或通过PERIA 等联合微调策略实现跨领域适配。结构化分解方法如Chain-of-Affordance 与基于流图的 0 在复杂环境中优于端到端方法。
总体来看,这些进展(见图[5] (B))显示出该领域正处于转型阶段------从单一架构扩展向认知启发式框架过渡,将结构化推理、多模态输入与显式知识表征结合起来。这一转变意味着研究正超越纯粹依赖数据驱动的端到端学习,迈向更具可解释性与泛化性的设计,但仍受限于高昂的计算开销与数据集多样性的不足。
3.2.3 扩散 VLA 的应用优化与部署
从实验室原型到真实世界部署仍是扩散式 VLA系统面临的重大挑战。要解决这一问题,需要在效率、适应性与鲁棒性三方面取得突破。最新研究表明,与其盲目扩大模型规模,不如依托优化策略、认知启发式架构与实用部署机制。效率优化已成为核心议题。尽管扩散模型资源消耗巨大,轻量化设计如 TinyVLA与 SmolVLA 表明,通过预训练骨干与参数高效调优(如LoRA),可以在单卡规模实现训练而不损失性能。VQ-VLA 等方法利用向量量化动作编码器缩小"模拟---现实"差距,展示了效率与鲁棒性可以兼得。这一趋势体现了"智能稀疏性"的理念,更关注单位计算性能,而非单纯扩展规模。
与此同时,任务适应性成为先进 VLA系统的重要特征。在灵巧操作中,大规模精选数据集如 DexVLG 实现了强大的零样本性能;在移动操作中,AC-DiT 通过运动-身体条件统一了感知与控制。总体上,趋势是"通用架构 +深度专业化",在保留广泛多模态能力的同时注入任务特定归纳偏置。架构创新代表了新前沿。双系统与三系统设计如 MinD 与 TriVLA 展示了如何将认知原理操作化。MinD将低频视频预测用于战略规划,将高频扩散策略用于反应控制;TriVLA则显式分离"视觉语言推理、动力感知与策略学习",形成协同模块。这些架构可在交互频率(如36Hz)下运行,不仅提升了性能,还改善了可解释性与可维护性------这是工业应用中的关键要求。
除效率与设计外,运行时鲁棒性成为真实部署的决定因素。BYOVLA 等轻量干预方法可在推理时动态编辑无关视觉区域,无需微调即可缓解环境不确定性下的鲁棒性问题。DreamVLA 等自反思架构引入层级化错误处理,结合增强推理模块、错误感知层与专家适配器,体现了向"防御型AI"转变的趋势,强调系统韧性与可靠性与性能同等重要。扩散式 VLA 的应用场景迅速拓展。在自动驾驶中,DriveMoE 通过场景与技能专家混合实现闭环控制的最新水平;在人形机器人中,DreamGen 借助视频世界模型,将单任务远程操作泛化至数十种新行为。EnerVerse 与VidBot 通过自回归视频扩散与可供性学习预测具身未来,凸显了视频中心世界建模在规划中的潜力。这些进展标志着研究正从任务特定原型向跨领域通用系统转变。
基础模型方向的雄心进一步凸显了这一趋势。FP3 提出大规模 3D策略模型,预训练于 60,000 条轨迹上;GR00T N1 将多模态 Transformer架构集成至人形机器人基础系统。类似于 NLP中的大语言模型,这些方法旨在为机器人提供通用先验,但必须解决安全性、实时控制与物理可靠性等问题------这些挑战在文本领域并不突出。泛化与微调策略在推动扩散式 VLA 走向现实部署中仍至关重要。ObjectVLA 与SwitchVLA 展示了开放世界物体操作与执行感知的任务切换能力,凸显了动态环境下的灵活性。与此同时,LangToMo与 Evo-0 提出了新型中间表征与几何感知插件模块,证明结构化感知先验可显著提升跨任务适应性。在优化方面,系统化微调框架OFT 集成并行解码、动作分块与连续表征学习等技术,使研究从探索性原型逐步迈向工程化学科。
总体来看,这些策略表明要实现鲁棒的泛化,需要依托架构创新、高效模型设计、任务自适应、认知启发式架构与运行时鲁棒性机制(见图[5] )。然而,安全关键场景仍缺乏系统性研究。弥合这些差距,是 VLA从实验室原型迈向可靠通用机器人系统的关键。扩散模型在 VLA系统中的应用正朝着更高效、更鲁棒与更通用的方向发展。从基础的动作生成建模,到复杂的多模态融合,再到实际部署优化,一个完整的技术框架已逐渐形成。仍有诸多问题亟待解决,未来的发展趋势将继续聚焦于提升模型效率、增强泛化能力与优化实际部署性能。
3.2.4 结论
创新
基于扩散的模型从根本上将机器人控制重新表述为生成式建模问题。它们支持概率化的动作生成、多模态架构融合与认知启发式部署策略,突破了确定性与模块化流水线的局限。这些方法提升了轨迹多样性、几何一致性与推理集成。同时,TinyVLA与 SmolVLA 等效率导向设计,使真实世界的部署日益可行。
限制
然而,在动态环境中保持时间一致性仍然脆弱;大规模扩散模型需要高昂的计算资源与数据集支持;安全关键场景下的鲁棒性研究尚不足。此外,多模态融合虽然丰富了表征,但可能削弱模态特有优势;领域专用适配可能降低跨域迁移能力。要应对这些挑战,需要更高效与稳健的训练范式、更丰富的安全感知评估标准,以及"基础规模建模"与实际部署约束之间更紧密的衔接。
3.3 基于强化学习微调的 VLA 模型
3.3.1 强化学习微调策略
图6:基于强化学习的模型在虚拟实验室研究中的发展及关键创新点 基于强化学习的视觉-语言-动作(VLA)方法将视觉-语言基础模型与强化学习结合,以增强感知、推理与决策能力。通过利用视觉与语言输入,这些方法能够在交互式与动态环境中生成具备上下文意识的动作,已成为推动自动驾驶、机器人学及更广泛具身智能系统发展的关键研究方向。近期进展表明,基于强化学习的VLA方法能够引入人类反馈,适应新任务,并在性能上超越纯监督范式。这些研究的发展脉络汇总于图[6]。
早期方法利用大规模人类视频数据集或机器人操作数据集,通过引入强化学习奖励策略提升机器人操作能力。这些研究重点探讨了预训练视觉语言模型(VLMs)在强化学习中的"提示可控性",并显示即使在冻结参数的情况下,模型也能通过提示嵌入学习高效支持下游策略训练。VIP提出了与动作无关的自监督目标条件价值函数,能够生成平滑的嵌入,并通过嵌入间距离隐式评估价值。类似于其他强化学习微调方法,一些研究利用语言与图像联合生成奖励代理,并通过自监督对比学习获得跨模态状态-语言表征。这类方法强调奖励感知表征的可迁移性,使其能够应用于稀疏奖励或复杂语言指令下的机器人学习任务。
此外,部分方法重点优化奖励函数或损失函数以改进策略学习。这些方法将语言模型作为奖励函数设计的中介,通过人类演示与 VLM语义映射学习奖励代理,从而简化了奖励工程。结合人类反馈的强化学习(RLHF)可进一步提升泛化与可解释性。例如,Elemental展示了在复杂操作任务中快速定制任务需求并在少量样本下实现高效学习的能力。
SafeVLA 从安全角度探索了 VLA的应用,聚焦开放环境下的部署风险。其提出了一种约束学习对齐机制,在保持任务性能的同时防止高风险行为。该方法在VLA架构中引入安全评论网络以估计风险水平,并采用约束策略优化(CPO)框架在最大化奖励的同时确保安全损失低于预设阈值。在多任务测试中(包括操作、导航与物体处理),尤其是在模糊自然语言指令增加不确定性的场景下,SafeVLA显著减少了风险事件,展现出更高的安全性与稳定性。这一研究为 VLA在现实应用中的安全部署提供了重要机制。
不同于前述机械臂 VLA 模型,研究者还探索了面向四足机器人与人形机器人的VLA框架。这些机器人依赖自然语言导航指令,强调轨迹预测、目标描述与避障等任务。例如,NaVILA通过单阶段强化学习策略对 VLA模型进行微调,以输出连续控制指令,从而适应复杂地形与动态变化的语言指令。相比之下,MoRE将多个低秩自适应模块作为不同专家集成至多模态大语言模型(MLLM)中,形成稀疏激活的混合专家模型,随后通过强化学习目标训练为Q 函数。LeVERB 则进一步提出了面向人形机器人全身控制(WBC)的层级化 VLA框架。与 NaVILA 类似,LeVERB将视觉-语言处理与动力学级别的动作处理相结合,利用强化学习策略将潜在词汇转化为高频动态控制命令,从而实现复杂的全身任务执行。
离线强化学习在混合质量数据集上学习鲁棒策略模型方面表现突出。ReinboT应用通过最大化累积奖励的 RL原则,增强了对数据质量分布的理解,并通过预测细粒度奖励捕捉任务间的差异,从而帮助机器人基于长期收益生成更鲁棒的决策。在线强化学习方法也在VLA 领域得到广泛探索。例如,SimpleVLA-RL仅使用单条轨迹与二值奖励(0/1)来训练 VLA模型。该方法避免了对密集监督或大规模行为克隆数据集的依赖,却能通过环境中的基于规则的奖励信号模拟,达到与全轨迹监督微调(SFT)相当的性能。意识到仅使用离线或在线策略的局限性,ConRFT提出了一种结合两者的混合策略:离线部分通过行为克隆与 Q-learning从有限演示中提取策略并稳定价值估计;在线部分则引入一致性目标与人工干预机制,以稳步提升策略性能,确保训练过程中的安全探索与样本效率。
在自动驾驶领域,VLA 模型同样利用强化学习来提升在未见场景中的驾驶性能。AutoVLA即为一例,它提出了一种结合推理与动作能力的自回归生成模型。该模型首先处理视觉输入与语言指令,然后通过推理微调生成可离散化为连续轨迹的可行动作。其采用链式推理(CoT)与群体相对策略优化(GRPO)两阶段微调,达到了最新性能。值得注意的是,不同于参数规模巨大的现有模型(导致高计算与存储需求),部分研究探索了在基于强化学习的VLA中引入量化、剪枝与知识蒸馏等效率策略,常结合近端策略优化(PPO)。例如,RPD通过蒸馏将教师 VLA 模型压缩为学生模型以提升推理速度;RLRC提出了一种新型压缩框架,结合结构化剪枝、SFT 与 RL的性能恢复以及量化,从而在保持任务成功率的前提下降低了内存使用并提高推理吞吐量。
3.3.2 结论
创新 基于强化学习的 VLA 微调策略通过视觉与语言信号生成密集且可迁移的奖励代理,并结合离线行为克隆与在线强化学习稳定了策略优化,提升了泛化能力。安全导向的方法通过约束优化减少了开放环境部署中的高风险动作,也代表了重要的进展。此外,这类方法已扩展至四足、人形机器人及自动驾驶场景,凸显了强化学习驱动的VLA 在不同机器人具身形式中的多样性与适用性。
限制 尽管取得了显著进展,但基于强化学习的 VLA 在奖励工程中仍常依赖间接或噪声信号,导致学习次优;训练稳定性可能受到监督微调与探索相互作用的干扰;在高维真实环境中扩展时计算开销巨大,需要大量硬件与数据资源。此外,尽管已有安全感知的策略提出,但在模糊或对抗性指令下确保鲁棒泛化仍是悬而未决的问题。解决这些挑战需要更高效的奖励表征、更稳健且高效的训练范式,以及更丰富的评估基准,以同时衡量安全性与推理能力。
3.4 其他前沿研究
图7:视觉语言动作研究中混合架构与专用方法的演变 尽管自回归、扩散与强化学习仍是 VLA模型设计的基础范式,但随着具身任务的复杂性与多样性不断提升,越来越多的方法开始跨越这些边界。当前研究进展可归纳为五个关键方向:整合多种生成范式的混合架构、面向更强跨模态与空间理解的高级多模态融合、面向任务挑战的特定领域适配、在大规模层面统一"感知---推理---控制"的基础模型与大规模训练范式,以及强调效率、安全与人机协作的实用部署策略。代表性工作见图[7]。
3.4.1 混合架构与多范式融合
随着具身操作任务的多样性与复杂性提升,单一生成范式(无论是自回归、扩散或强化学习)往往难以胜任。混合架构因而成为有前景的方案,通过策略性地结合多种范式以发挥其互补优势。其核心目标是在连续动作生成的平滑性与物理一致性、离散推理的精确性,以及面向动态真实环境的适应性之间取得平衡,从而为更强大、更多才多艺的VLA 模型奠定基础。代表性工作 HybridVLA 在单一 7B参数框架中统一了基于扩散的连续轨迹生成与基于自回归的 token级推理:前者保障运动的平滑与物理一致性,后者保留上下文条件下的推理能力。
受认知科学启发的"双系统"理念也被近期工作采纳。Fast-in-Slow将卡尼曼的双系统理论工程化:在较慢但更具认知能力的 VLM主干中嵌入低时延执行模块,以在保留高层推理的同时实现实时响应。RationalVLA通过可学习的潜在嵌入,将视觉---语言推理与低层操作策略耦合,使模型得以过滤不可行指令并规划可执行动作。混合设计的规模化同样展现潜力。Transformer-based Diffusion Policy显示,十亿级参数的注意力架构可有效结合扩散过程与注意力机制,相比传统U-Net在轨迹建模中更能捕获丰富的上下文依赖。这一趋势指向"在扩散式规划器中嵌入自回归Transformer"的下一代 VLA:既具更强上下文感知,又能生成质量更高的运动。
除单点创新外,OpenHelix 等倡议正推动混合 VLA设计的系统化:通过大规模实证评测,对比不同"推理---执行"集成策略,并提供开源实现与设计指引,促进了复现性与标准化。相关进展见图[7] (A)。
3.4.2 高级多模态融合与空间理解
在复杂环境中实现稳健操作,不仅需要简单的跨模态对齐,更需要结构化、任务感知的融合机制,以刻画细粒度语义与空间关系。近期研究明显从早期"特征拼接"转向"显式建模几何、可供性与空间约束"的架构,推动VLA 在非结构化、具 3D意识的场景中获得更强的空间落地性与更可靠的动作生成。
早期工作 CLIPort 以"what/where"双通路解耦视觉处理:基于 CLIP的表示,从图像---语言对生成抓放热力图,体现语言条件操作中的结构化视觉推理优势。其后工作强调3D 空间理解为核心能力:VoxPoser 在体素化场景上构建由大模型引导的可组合3D价值图,将指令解析分为目标理解与动作规划,清晰分离语义解析与空间推理以增强泛化。3D-VLA则在生成式 3D世界模型中,结合自回归语言建模与基于扩散的动作预测,实现"感知---语言---动作"的一致统一。
多视角感知的挑战通过统一表征学习来应对。RoboUniView 使用多视角Transformer 融合时空线索,相比单视角显著提升 3D 几何理解;BridgeVLA 将3D 观测投影为多张 2D 视图,并在统一的 2D热力图空间内预测动作,凸显紧凑且具空间落地性的高效表征。
为应对更苛刻场景,还出现了专门的空间推理方法:ReKep以关系关键点图建模时空依赖,适于高精度场景;RoboPoint预测可供性图,提供下游规划所需的关键感知先验;GeoManip通过符号几何约束引导动作生成,无需任务特定再训练,获得强 OOD 泛化。
总体轨迹清晰:从早期 2D 通路式融合,迈向模块化、具 3D意识的架构,统一空间落地、语义推理与动作生成。随着 VLA在开放世界落地,围绕几何与可供性的显式推理能力将持续决定其稳健与可泛化的操作性能。相关进展见图[7] (B)。
3.4.3 专用领域的适配与应用
VLA框架的通用性,使其得以扩展至具有独特感知、推理与控制挑战的特定具身领域。这些适配既验证了VLA原则的普适性,也揭示了在不同领域取得成功所需的架构与算法改造。从安全关键机器人到纯数字交互,相关创新展示了VLA 流水线在多样运行场景中的可塑性。
在安全关键的自动驾驶领域,CoVLA 提供了首个面向该领域的大规模 VLA数据集,包含约 5万条语言指令与驾驶轨迹视频,覆盖多样城市场景,展示了"视觉---语言推理 +连续控制"在导航与危险规避中的耦合方式。
VLA 范式亦扩展至 GUI 交互这一纯数字空间:ShowUI采用视觉---语言---动作管线解析屏幕元素并生成点击、拖拽、表单填写等控制序列,在GUI-Bench 上表现强劲,表明 VLA 原则同样适用于非物理的"操作"任务。
人形机器人"全身控制"是另一艰巨领域。LeVERB提出层级架构:视觉---语言策略从运动学演示中学习潜在动作词汇,强化学习控制层产生低层动力命令;这种两级设计弥合语义---控制鸿沟,并实现150+ 任务的稳健"仿真到现实"迁移。Helix则表明单一统一策略网络可在无需任务特定再训练的条件下习得多样人形行为,从物体操作到跨机器人协作。
面向大规模编队与移动操作的适配同样活跃。AutoRT以"观察---推理---执行"框架编排异构机器人群:将高层策略规划委托给PaLM-E、RT-2 等 VLM;MoManipVLA 通过航点轨迹与双层运动优化,将固定基座VLA 迁移至移动操作。
其他领域化创新融入物理推理或任务专属认知结构:物理落地 VLA加入稳定性与接触点估计模块,提升复杂物理约束下的操作;CubeRobot 以VisionCoT +记忆流的双环路结构求解魔方,在低/中难度任务近乎满分,在高难度场景亦表现出色。相关适配汇总见图[7] 。
3.4.4 基础模型与大规模训练
基础模型与大规模训练重塑了 VLA研究路线,使"感知---推理---控制"的统一框架得以跨任务、跨具身形态与跨环境泛化。该方向利用海量多模态数据与可扩展架构,致力于构建能力广泛、适应高效的通用具身体。大规模预训练正日益成为下一代VLA 系统的骨干。近期综述 系统梳理了机器人领域的基础模型研究,覆盖视觉---语言模型、策略模型与跨模态对齐技术,聚焦VLA架构,并按"感知对齐、策略生成、世界模型"进行组织,指出"多模态接口深度一体化"的收敛趋势。
大规模数据集是实现基础规模训练的关键。DROID 提供超 15万条轨迹,覆盖千余对象与任务场景,含RGB-D、语言、低维状态与环境标签等多模态标注;General Flow 以 3D点轨迹作为可迁移的可供性表征,实现"人---机"跨域技能迁移;ViSA-Flow在大规模人---物交互视频中提取语义动作流进行生成式预训练,下游机器人学习所需适配极少。
训练策略方面,Zhang 等 基于 2500 次 rollout实验分析微调关键因素(动作空间、策略头设计、监督信号),给出基础规模 VLA适配的实用指南;Chen 等 探索将链式思维(CoT)引入具身策略学习,证明轻量级推理机制可在保持性能的同时将推理时延缩短至原来的约1/3。
总体而言,研究正朝着"基于海量多样数据训练的通用具身体 + 模块化推理能力"的方向收敛:大规模预训练、有效适配与可迁移的可供性表征的组合,使基础规模 VLA 日益成为下一代机器人智能的底座。代表性工作见图[7] (D)。
图8:各种数据集的样本数据 3.4.5 面向效率、安全与人机协作的实际部署
当 VLA 模型从研究走向真实应用,实用部署要求在效率、鲁棒性与人机交互上统筹兼顾。在动态且不可预测的环境中,实时推理、对抗条件下的韧性,以及顺畅的人机协同流程,都是可靠运行的关键。本方向将系统优化与安全、适应性融合,确保高容量模型在实践中既有效又可信。
面向效率的设计致力于降低推理时延、压缩计算需求,并提升资源受限平台上的适配性。实时执行方面,RTC(Real-Time Chunking) 在执行当前动作段的同时预测下一段,实现连续的高频控制;EdgeVLA 取消末端执行器预测中的自回归依赖,并引入小型语言模型,在几乎不损失性能的情况下实现约 6× 加速;DeeR-VLA 使用动态早退机制,在置信度达阈值时提前结束推理,降低在线控制开销。
适配过程中保持知识完整性也成为重点:知识隔离 VLA 在向预训练 VLM 注入专用模块时抑制语义退化,保留跨任务泛化;CEED-VLA 等一致性加速策略通过一致性蒸馏与早退解码实现 4× 以上加速,并以混合标签监督缓解误差积累。RoboMamba 等轻量多模态融合与 ReVLA 等跨域适配方法亦助力可部署效率。
安全与鲁棒性同样是部署就绪的支柱。SAFE 基于 VLA 内部特征进行故障检测,能泛化至未见场景并实现前瞻性干预;Cheng 等 的 PVEP 体系揭示了对抗补丁、排版诱导提示与分布偏移下的脆弱性,促使"感知---控制"管线的对抗鲁棒设计;Lu 等 从可解释性出发,在 VLA 隐层中发现对象、关系与动作的符号编码,为更透明的决策奠基。DyWA 等自适应控制框架通过联合建模几何、状态、物理与动作,应对动态与部分可观环境。
在人机协作方面,研究探索"人---机共学"的交互闭环:Xiang 等 将有限专家干预纳入 VLA 决策,降低操作员负担并丰富训练数据;Zhi 等 的闭环策略结合 GPT-4V 感知与实时反馈控制,随环境变化自适应;面向历史的策略学习 与 CrayonRobo 的目标中心可视化提示提升任务落地与透明度;技能库构建 与 Grounding Mask 支持可扩展、可复用的任务分解;cVLA 以"图像坐标系航点"直接预测轨迹,弱化对具体具身形态的依赖,改善仿真到现实的迁移。代表性方法见图7。
综上,VLA 的实用部署需要一种多维一体的设计哲学:同时解决效率、安全与协作适应性。将"实时推理优化、故障与对抗鲁棒、人在回路的细化"有机融合,正为真实世界中持续、可靠、可交互的机器人系统铺平道路。
3.4.6 结论
创新 本节所述前沿研究共同将 VLA 推向更广阔的边界:混合架构整合互补范式以兼顾推理与动作生成;高级多模态融合实现具 3D 意识的空间落地;领域化适配将 VLA 原则扩展至自动驾驶、人形控制与 GUI 交互等场景;基础规模模型以海量多模态数据塑造更通用的智能体;面向部署的方法在效率、安全与人机协作上发力,提升真实可用性。
限制 然而,混合系统在计算与工程规模化上成本高昂;多模态融合易受真实场景噪声与不完全输入影响;领域化适配存在过拟合窄域的风险;基础模型对数据与资源依赖巨大;部署层面在对抗与动态条件下的鲁棒性、可解释性与可靠性仍具挑战。应对这些问题,需要更高效的训练策略、更广谱的评测标准,以及研究设计与实际部署之间更紧密的结合。
4. 数据集与基准
图9:机器人代表数据集与基准测试 与其他模仿学习方法相似,视觉-语言-动作(VLA)模型依赖高质量的标注数据集。这些数据集或来自真实世界场景的采集,或由仿真环境生成,其样例见图[8]。通常,它们包含多模态观测------如图像、LiDAR 点云、惯性测量单元(IMU)读数------以及相应的真实标注与语言指令。为便于系统化理解,我们对现有数据集与基准进行分析,并提出一种按复杂度、模态与任务多样性组织数据集的分类法。该分类法为评估不同数据集对 VLA 研究的适配性提供了清晰框架,并突出当前资源中的潜在空白;代表性工作汇总见图[9]。
4.1 真实世界数据集与基准
高质量的真实世界数据集是可靠 VLA 算法发展的基础。近年来,研究者采集了大量高质量、且多样化的真实机器人数据集,覆盖不同的传感器模态、多类任务与环境设置。
4.1.1 具身机器人真实世界数据集与基准
真实世界具身机器人数据集,指机器人在与环境交互过程中采集到的多模态数据集合。这类数据集专门用于刻画视觉、听觉、本体感知与触觉等多种感知输入与相应的运动动作、意图及环境语境之间的复杂耦合关系。它们对于具身人工智能的训练与评测至关重要,其目标是在动态环境中实现闭环、可自适应的行为。通过提供丰富且时间对齐的观测与动作,这些数据集成为模仿学习、强化学习、视觉-语言-动作以及机器人规划等算法发展的基础资源。
当前具身机器人数据集面临显著的数据成本问题,因为真实机器人数据尚未大规模采集。采集真实数据既需要硬件设备,也需要精确操作。其中,MIME 、RoboNet 与 MT-Opt 覆盖了从简单推动到复杂家居堆叠等多类任务的大规模演示数据。不同于早期多假设"单最优轨迹"的设定,这些数据集为同一任务提供多次示范,并以测试轨迹到最优轨迹的最小距离作为评估指标,显著推动了操作与 VLA 方向的研究。 BridgeData 提供跨 10 个环境、71 个任务的大规模多域机器人数据。实验显示:在该数据上联合训练,并在新域仅额外使用少量(如 50 个)未见任务样本,成功率可较仅用目标域数据翻倍。因此,许多当代 VLA 方法采用 BridgeData 进行训练。 在具身 AI 领域,模型泛化常受限于真实数据采集的多样性不足。RT-1 提供广泛的真实机器人任务数据,以提升任务性能与对新场景的泛化能力。类似地,Bc-z 含有在同一场景中、由新奇物体组合构成的未见操作任务,支持可泛化策略学习研究。 若干数据集还提供覆盖手部操作、运动、多任务、多智能体与肌肉驱动控制等环境的完整软件平台与生态 。相比以往,RoboHive 弥合了当前机器人学习能力与潜在增长之间的鸿沟,支持强化、模仿与迁移等多种学习范式。 RH20T 独具特色地提供了 147 个任务、11 万段操作片段,包含多模态视觉、力觉、音频与动作数据。每段数据均配有人类示范与语言描述,使其特别适合基于单样本的模仿学习与面向新任务的策略迁移。
为发展更具泛化能力的操作策略,机器人社区需优先采集覆盖广泛任务与环境的大规模多样化数据集。多机器人、跨区域协作采集的数据集在地理与语境多样性上达到了新的高度 。此外,Open X-Embodiment(OXE) 整合了 21 个机构合作采集的 22 个机器人数据集,覆盖 527 种技能与 160,266 个任务,并提供标准化数据格式以便利研究使用。图[9] (A) 对这些数据集作了概览。
在基准评测上,常用指标为成功率(成功完成任务数占总任务数的比例)。部分研究额外采用语言跟随率,以评估模型对语言指令的理解与执行能力。进一步地,近期 VLA 模型常通过将训练得到的策略迁移到未见环境来评估其鲁棒性与泛化性能 。
4.1.2 自动驾驶真实世界数据集与基准
自动驾驶数据集不同于具身机器人数据集。作为人工智能最具变革性的应用之一,自动驾驶高度依赖大规模数据集来训练与评估感知、规划与控制算法。高质量数据集是构建稳健且具泛化性的自动驾驶系统的基石,它们支持监督学习、基准评测以及对稀有/安全关键场景的模拟。过去十年,大量数据集 相继发布,提供包括摄像头图像、LiDAR 点云、雷达与高精地图在内的多模态传感数据。它们在地理覆盖、传感器配置、驾驶行为多样性与标注丰富度等方面差异显著,因而在研发中具有互补性。
然而,多数公开数据集为开环采集,主要反映正常驾驶行为,难以覆盖长尾极端情形。为弥补这一不足,近期工作转向合成数据生成、闭环交互模拟,以及面向稀有/安全关键事件的专门数据集策划。持续的创新对推进安全、可扩展且可泛化的自动驾驶系统至关重要。
在评估方面,自动驾驶 VLA 模型常用 L2 轨迹误差(度量与参考轨迹的偏差)与完成率(成功完成驾驶任务的比例)等指标。
4.2 仿真数据集与基准
对连续控制任务而言,采集大规模真实数据具有显著挑战,因为此类任务需要实时交互与持续的人类标注反馈。此外,采集代价高、周期长,限制了可扩展性。 因此,研究者利用虚拟引擎生成的大规模高质量模拟数据进行训练与评估,以在大量问题实例上实现可扩展的人类监督信号与安全试验。
4.2.1 具身机器人仿真世界数据集与基准
具身 AI 的仿真数据集通常包含合成场景、基于物理的交互、以及针对导航、物体操作、任务执行与体---环境动力学的标注。这些数据集支持从视觉导航、语义探索到复杂多步物体操作等广泛任务的训练与基准测试。代表性例子包括 ,它们在真实感、任务多样性与控制保真度之间提供不同取舍。 通过实现安全的可扩展试验与海量数据采集,仿真数据集成为发展鲁棒、可泛化具身智能体的根基。随着领域成熟,覆盖多种具身形态、任务与环境、更加真实丰富的仿真数据集设计,正持续推动向真实部署的迈进。
ROBOTURK 提供通过移动设备远程操作收集的高质量 6-DoF 操作状态与动作的仿真数据。不同于依赖远程用户在虚拟引擎中逐一演示的传统方式,ROBOTURK 借助策略学习生成多步任务并设置不同奖励;通过聚合大量示范,数据在训练与评估中均具有较高的精确性与可靠性。 iGibson0.5 提出用于训练与评估交互式导航的基准,不仅提供新的仿真实验环境,还提出了用于衡量"导航---物理交互"耦合的指标:交互式导航分数(Interactive Navigation Score),由路径效率与努力效率两部分构成。路径效率定义为"最短成功路径长度/实际行走路径长度",并乘以成功指示函数;努力效率反映导航过程中过量的运动学与动力学代价。 VIMA 提出 VIMA-BENCH,设立四级评测协议,逐步考察从随机摆放到全新任务的泛化能力。CALVIN 与 LOTA-Bench 则聚焦在多模态传感数据下学习长时、语言条件的操作任务,特别适合在大规模交互数据上训练、并在新场景上测试的泛化方法。此类基准通常以任务成功率为主要指标。仿真数据集概览见图[9] (B)。
4.2.2 自动驾驶仿真世界数据集与基准
闭环仿真在保障自动驾驶安全方面至关重要,因为它能够生成现实中难以或危险采集的安全关键情景。
尽管既有行车记录为构造新情景提供了宝贵资源,但闭环评测要求对原始传感数据进行修改,以反映更新后的场景配置。例如,需要添加/移除交通体,且现有交通体与自车的轨迹可能与原记录不同 。 UniSim 是一种神经传感器仿真器,可将单段记录扩展为多传感器闭环模拟。其构建神经特征网格重建静态背景与动态体,并进行合成以模拟来自新视角的 LiDAR 与相机数据,从而支持添加、移除或重定位交通体。为适配未见视角,UniSim 进一步使用卷积网络补全原始数据中不可见区域。
不同于真实世界数据集,闭环仿真基准需要面向交互式驾驶任务的专用评测指标。常用指标包括:Driving Route(路线遵循度)、Infraction Score(交通违规惩罚)与 Completion Score(任务完成度)。它们共同对 VLA 模型在更接近现实、安全关键场景下的表现给出更全面的评估。
4.3 结论
创新 本文引入了系统化分类、标准化评测指标,以及如 Open X-Embodiment(OXE)这类多机构协作的统一化努力,促进了可复现性与泛化。这些贡献扩展了任务覆盖、丰富了模态组合,并改善了跨领域策略迁移,推动具身 AI 研究的可扩展性。
限制 然而,真实数据集采集成本高、组织复杂,且常受限于实验室等受控场景,场景多样性不足;仿真数据集虽具可扩展与安全优势,但仍难以完全刻画真实交互的复杂性、噪声与不可预测性。此外,成功率与轨迹偏差等指标或不足以反映语言落地、长时推理或在非结构化环境中的安全部署等细粒度能力。要解决这些问题,既需要扩展数据集的多样性与真实感,也需要设计更丰富的评测协议,以更好地契合真实自主系统的需求。
5. 仿真平台
机器人仿真器已成为在多样化交互环境中开发与评估智能机器人系统的必备工具。这些平台通常集成物理引擎、传感器模型(如 RGB-D、IMU、LiDAR)以及任务逻辑,以支持导航、操作、多模态指令执行等多类任务。最先进的仿真器能够提供可扩展、照片级真实感且物理合理的环境,用于基于强化学习、模仿学习或大规模预训练模型的具身智能体训练。通过提供安全、可控、可复现的实验环境,具身仿真器不仅加速了可泛化机器人智能的发展,还显著降低了真实世界实验的成本与风险 。
THOR 提供了近乎真实感的三维室内场景,AI 智能体可在其中进行导航与物体交互以完成任务。它支持模仿学习、强化学习、操作规划、视觉问答、无监督表征学习、目标检测与语义分割等多个研究方向。与此相对,一些仿真器基于虚拟化真实空间而非人工设计环境,涵盖数千栋配备具身智能体的完整建筑,并具备真实的物理与空间约束 。Habitat 与 Habitat 2.0 进一步扩展了此类范式,提供可扩展的仿真平台,用于在复杂 3D 环境中训练具身智能体,且包含物理驱动的交互场景。 ALFRED 引入了一个基准,涵盖长时、可组合的任务以及不可逆的状态变化,旨在缩小仿真与真实应用之间的差距。其任务同时包含高层目标与低层语言指令,在序列长度、动作空间与语言多样性上远超以往数据集。
早期物理与机器人任务结合的仿真环境常聚焦于狭窄场景,规模小且场景简化。相比之下,iGibson 1.0 与 iGibson 2.0 是开源平台,支持更丰富的家庭任务,且场景基于真实住宅复刻,物体分布与布局与现实高度一致,从而增强了生态效度,弥合了仿真与现实机器人学习之间的差距。先进的仿真器不仅允许多个智能体在同一环境中交互,还能输出多样的传感与物理信息。理想情况下,它们应结合通用物理引擎、灵活的机器人仿真平台与高保真渲染系统。这些特性使其既是机器人仿真的强大工具,也是生成模型评估的重要平台 。MuJoCo 是一个被广泛采用的开源物理引擎,专为机器人学及相关需要高精度仿真的领域而设计。近年来,GPU 驱动的仿真引擎逐渐流行。NVIDIA Isaac Gym 基于 Omniverse 平台,支持大规模开发、仿真与测试 AI 驱动的机器人,并在物理真实的虚拟环境中运行。Isaac Gym 已逐渐成为学界与工业界加速机器人工具研发与改进的重要选择。
在自动驾驶领域也存在类似挑战:大规模真实数据的采集与标注昂贵且耗时,尤其难以涵盖罕见的长尾场景。为此,研究者开发了包含静态道路元素(如路口、红绿灯、建筑物)与动态体(如车辆、行人)的仿真器。CARLA 与 LGSVL 基于游戏引擎渲染逼真的驾驶场景,支持灵活的传感器配置,并生成可用于训练与评估驾驶策略的信号。这些平台已成为推动自动驾驶研究的重要工具,因其可控、可复现且低成本的测试环境。
6. 机器人硬件
机器人的物理结构为感知、运动、操作与环境交互提供基础。其核心组件通常包括传感器、执行器、动力系统与控制单元。传感器(如相机、LiDAR、惯性测量单元与触觉阵列)提供外部环境与机器人内部状态的关键信息;执行器(如电机、舵机或液压系统)将控制信号转化为物理动作,从而实现运动与物体操作。控制单元通常基于嵌入式处理器或微控制器,作为计算核心整合传感器输入并向执行器下发指令。动力系统多为电池或外部能源,为持续运行提供保障。硬件设计需在性能、能效、重量与耐用性之间权衡,以满足工业自动化、服务机器人与自动驾驶等不同应用场景的需求 。
7. 挑战与机遇
7.1 视觉-语言-动作模型的挑战
本节总结了推动视觉-语言-动作(VLA)模型发展的未解难题与未来方向。尽管近年来取得了显著进展,VLA 模型的研究与应用逐渐暴露出关键瓶颈。最根本的问题在于,当前 VLA 系统主要依赖于大规模 LLM 或 VLM 的迁移。尽管这些模型在语义理解与跨模态对齐方面表现优异,但它们缺乏与物理世界交互的直接训练与经验。因此,VLA 系统在真实环境中常表现为"能理解指令但无法正确执行任务"。这反映了一个核心矛盾:语义层面的泛化与物理世界中的具身能力之间的断裂。如何实现从非具身知识到具身智能的转化,并真正弥合语义推理与物理执行之间的鸿沟,是该领域的核心挑战。具体而言,这一矛盾体现在以下几个方面:
7.1.1 机器人交互数据稀缺
机器人交互数据是决定 VLA 模型性能的关键资源,但现有数据集在规模与多样性上仍然不足。在真实世界中采集覆盖广泛任务与环境的大规模演示受制于硬件成本、实验效率与安全问题。现有开源数据集(如 Open X-Embodiment)虽推动了机器人学习,但主要集中在桌面操作与抓取,任务与环境的多样性不足,严重限制了复杂场景中的泛化。仿真平台(如 RLBench)虽然能低成本生成大规模轨迹,但受制于渲染真实性、物理引擎精度与任务建模能力。即便采用域随机化或风格迁移,仿真到真实(sim-to-real)的鸿沟依旧存在,许多模型在仿真中表现优异,却在物理机器人上失败。因此,如何在大规模上增强机器人数据的多样性与真实性,仍是缓解泛化不足的首要挑战。
7.1.2 架构分散与缺乏统一标准
多数 VLA 模型尝试端到端覆盖视觉、语言与动作,但其实现方式高度异构。一方面,不同工作采用的主干网络差异显著:视觉编码器可能基于 ViT、DINOv2 或 SigLIP,语言模型可能使用 PaLM、LLaMA 或 Qwen,而动作头则可能采用离散化 token、连续控制向量,甚至基于扩散的生成方式。这种架构多样性阻碍了模型之间的对比与复用,延缓了统一标准的出现。另一方面,感知、推理与控制在内部往往耦合松散,导致特征空间碎片化,跨平台与跨任务迁移性较弱。一些模型在跨任务语言理解上表现出色,但在对接底层控制器时需进行大量适配。这种异构性加大了集成复杂度,显著限制了泛化性与可扩展性。
7.1.3 实时推理的限制与成本
当前 VLA 模型高度依赖大规模 Transformer 架构与自回归解码,严重限制了推理速度与在真实机器人上的执行效率。由于每个动作 token 依赖于前一个,延迟不断累积,而高频任务(如动态抓取或移动导航)要求毫秒级响应。此外,高维视觉输入与海量参数量带来极高的计算与存储成本。许多最新 VLA 模型的 GPU 内存需求远超嵌入式平台的能力。即使结合量化、压缩或边云协同推理,依旧难以在准确率、实时性与低成本之间取得平衡。由此造成的推理约束与硬件瓶颈,使得 VLA 部署面临"过慢"与"过贵"的两难。
7.1.4 人机交互中的伪交互问题
当前 VLA 的普遍问题是"伪交互":系统往往基于先验知识或静态训练模式生成动作,而非真正建立在环境动态与因果推理的交互之上。当面对陌生场景或状态变化时,模型更多依赖数据中的统计共现,而非利用传感器反馈进行动作修正。缺乏因果推理导致 VLA 虽然看似遵循指令,却未能真正建立环境状态与动作结果之间的因果链条。因此,机器人在动态环境中常表现出适应性不足。伪交互凸显了 VLA 在因果建模与反馈利用方面的缺陷,是实现具身智能的重要障碍。
7.1.5 评估与基准测试的局限性
VLA 模型的评测体系同样存在局限。目前的基准大多设定在实验室或高度结构化的仿真环境中,主要聚焦于桌面操作或抓取任务。这类任务评估的分布较窄,无法反映在开放世界中的泛化性与鲁棒性。一旦部署于室外、工业或复杂家庭环境,性能往往急剧下降,暴露出评测与实际应用的差距。这种狭窄的评测范围阻碍了对 VLA 可行性的全面评价,也限制了模型间的横向比较。缺乏统一、权威且多样化的基准,已成为推动现实进展的重要瓶颈。
以上五个方面凸显了 VLA 在数据、架构、交互与评测上的不足,但并未穷尽所有挑战。更为根本的长期问题是:VLA 系统能否真正实现可控性、可信性与安全性。换言之,VLA 的未来不仅在于性能与泛化性的提升,还在于如何负责任地部署智能体。这意味着研究者必须超越单纯的模型优化,向系统性范式转变,以应对长期挑战。
7.2 视觉-语言-动作模型的机遇
尽管挑战重重,VLA 的未来同样充满机遇。作为连接语言、感知与动作的关键桥梁,VLA 有潜力跨越语义与物理的鸿沟,成为具身智能的核心路径。突破当前瓶颈不仅可能重塑机器人研究范式,还可能使 VLA 走向真实世界的前沿部署。
7.2.1 世界建模与跨模态统一
当前 VLA 系统中的语言、视觉与动作仍然松散耦合,使其局限于指令"生成",而非完整的世界建模。实现真正的跨模态统一,将使 VLA 能够在单一 token 流中联合建模环境、推理与交互,从而演化为原型化的"世界模型"。这一统一结构将帮助机器人真正闭环语义理解与物理执行。除了技术意义,这也将成为迈向通用人工智能的重要一步。
7.2.2 因果推理与真实交互的突破
现有 VLA 大多依赖静态数据分布与表层相关性,缺乏基于因果规律的交互能力。它们往往通过模式匹配来"模拟交互",而不是主动探测环境并利用反馈更新策略。若未来 VLA 能引入因果建模与交互式推理,机器人将能够通过探测、验证与自适应调整来与动态环境进行真实对话。这一突破将克服伪交互,标志着从数据驱动智能向深度交互智能的转变。
7.2.3 虚实融合与大规模数据生成
尽管数据稀缺是关键限制,但同时也是巨大的机遇。若能通过高保真仿真、合成数据生成与多机器人共享实现虚拟与真实数据生态的融合,就有可能构建包含万亿级轨迹的大规模数据集。正如 GPT 借助互联网语料实现语言智能的跃迁,这类数据生态有望引发具身智能的跨越,使 VLA 在开放世界中表现出更强的鲁棒性。
7.2.4 社会嵌入与可信生态
VLA 的最终价值不仅在于技术能力,更在于其社会融入。当 VLA 进入公共与家庭空间时,安全性、可信性与伦理对齐将决定其应用范围。建立标准化的风险评估、可解释性与责任机制,将帮助 VLA 从实验室原型转变为可信赖的伙伴。一旦融入社会,VLA 将成为下一代人机交互接口,重塑医疗、工业、教育与服务等领域。这种社会嵌入为前沿研究转化为现实变革提供了里程碑式的机遇。
8. 结论
近期视觉-语言-动作(VLA)模型的进展,将视觉语言模型的泛化能力拓展至机器人应用,包括具身智能、自动驾驶与多样化操作任务。本文系统性地梳理了 VLA 方法的出现过程,从动机、方法论到应用进行了全面分析。我们首先基于自回归模型、扩散模型、强化学习、混合结构与高效推理等维度,对 VLA 架构创新进行了分类;随后,探讨了支撑 VLA 训练与评估的数据集、基准与仿真平台。在此基础上,分析了当前方法的优势与局限,并提出了未来的研究方向。总体而言,本文为发展可信赖、可持续演进的 VLA 提供了统一参考与前瞻性路线图,并为推动机器人系统迈向通用人工智能奠定了基础。

123

被折叠的 条评论
为什么被折叠?



