作者 | 深蓝学院 来源 | 深蓝AI
点击下方卡片,关注“自动驾驶之心”公众号

>>自动驾驶前沿信息获取→自动驾驶之心知识星球
本文只做学术分享,如有侵权,联系删文
近年来,具身智能(Embodied Intelligence)成为学术界与产业界的热门方向。与仅停留在虚拟数据层面的传统智能不同,具身智能强调智能体通过与真实环境的持续交互获得能力提升。作为其中的核心,操作机器人 正在从工厂走向家庭与开放环境。在这一背景下,视觉-语言-动作(Vision-Language-Action, VLA)模型应运而生。它将视觉感知、自然语言理解与动作控制深度融合,使机器人能够理解环境、解析指令并自主执行复杂操作,被认为是通用机器人智能的重要里程碑。
中科院自动化所深度强化学习团队联合北京中科慧灵撰写了题为《面向具身操作的视觉-语言-动作模型综述》的论文,系统梳理了 VLA 模型的研究进展,聚焦其在机器人操作任务中的应用与挑战。这一方向,被视为打造下一代通用机器人智能的关键。


论文地址:https://arxiv.org/abs/2508.15201
1
—
发展历程梳理
根据 VLA 发展过程中的特点,本文将 VLA 模型发展历程划分成3 个阶段:萌芽阶段,VLA 概念尚未形成,但已经出现相似功能的模型;探索阶段,VLA 模型架构“百花齐放”,但逐渐确立了以 Transformer 为核心的可扩展骨干结构;快速发展阶段,模型架构从单层往多层方向发展,并且随着数据积累,多模态VLA 模型已经“崭露头角”。

萌芽阶段
早期阶段 VLA 概念尚未提出,但已有一些尝试将视觉、语言与动作联系起来。研究多以视觉模仿学习和语言标注辅助为主,能够在特定任务上展现效果,但在任务多样性和环境复杂性方面仍显不足。总体上,这一时期的探索为 VLA 的提出奠定了基础。
探索阶段
到 2023 年中,VLA 概念正式提出,研究进入快速探索期。Transformer 架构逐渐成为主流,推动模型在开放场景下展现更强的泛化能力。与此同时,大规模机器人数据集相继构建,跨机器人、跨任务学习成为可能。整体上,这一阶段呈现出“百花齐放”的局面,模型形态多样,但核心方向逐渐收敛。
快速发展阶段
自 2024 年底以来,VLA 模型进入快速迭代期。研究聚焦于解决泛化性不足与推理效率问题:一方面,模型架构从单层向分层结构演进,使其更好地平衡复杂任务理解与实时动作控制;另一方面,多模态信息(如三维、触觉、力觉)逐渐被引入,进一步提升机器人在真实场景下的适应能力。整体上,VLA 模型已从概念验证走向更具实用性的方向。
2
—
五大核心维度介绍
VLA 模型结构
VLA 模型通常由三部分组成:观测编码、特征推理和动作解码。近年来,随着任务复杂度的增加,分层推理也逐渐成为重要方向。

1.观测编码: 早期方法多采用 CNN 或 RNN 结构,用于图像和语言等单模态特征提取。近年来,研究逐步转向 ViT、跨模态 Transformer 等统一架构,并融合三维视觉、触觉和力觉等多模态信息,以提升环境感知的完整性与鲁棒性;

2.特征推理: Transformer 已成为主流骨干,因其具备良好的可扩展性和跨模态对齐能力。同时,Diffusion Transfomer和混合专家模型(Mixture of Experts, MoE)以及线性复杂度结构(如 Mamba)等新型架构不断被引入,以进一步增强模型的推理能力和计算效率;

3.动作解码: 从早期的离散 token 表示逐渐发展到连续控制预测,提升了机器人在真实环境下的操作精度与流畅性。部分最新工作还引入混合动作空间,在长时任务规划与短时动作精度之间实现更好的平衡;

4.分层系统: 在复杂具身操作任务中,仅依赖单层决策往往难以兼顾高层任务理解和低层实时控制。因此,越来越多的研究探索分层推理架构:上层负责环境建模、任务分解和全局规划,下层专注于高频率的动作控制与短时序执行。这种结构不仅提升了模型的语义推理能力和泛化性,也增强了实际部署中的稳定性和实时性。

VLA 训练数据
数据是 VLA 模型的核心驱动因素。根据来源与特性,可分为以下四类:
1.互联网图文数据: 互联网中的图像—文本对为 VLA 提供了丰富的视觉与语言先验,能够支持跨模态表征与对齐,使模型具备初步的环境理解与指令解析能力。然而,这类数据与机器人实际操作之间存在显著差距,缺少对动态环境理解;
2.视频数据: 视频,尤其是人类活动视频,蕴含自然交互的时序特征,为模型学习复杂操作技能提供了重要线索。通过对视频中的行为进行建模,VLA 可以学习到任务分解与动作模式。但视频数据往往缺少精确的动作标注,如何从中提炼可迁移的操作知识仍是挑战;
3.仿真数据: 仿真环境能够生成低成本、规模化、标注完整的数据,因而被广泛用于 VLA 的大规模预训练和策略探索。其优势在于可控性与多样性,但由于“Sim2Real”鸿沟,仿真学到的能力往往需要额外适配才能在真实场景中可靠落地;
4.真实机器人采集数据: 通过机器人在真实环境中收集的数据,能够最直接反映传感器噪声、动力学特性与复杂环境因素。这类数据对提升 VLA 的泛化性与可靠性至关重要,但采集成本高昂、效率低,限制了其规模扩展。

本文列举了以 OXE 为代表的 13 种真实机器人采集数据,以及 10 余种互联网图文数据、视频数据和仿真数据,并详细介绍了数据的名称、描述、规模、支持任务、和典型相关方法。
VLA 预训练方法
VLA 预训练的目标是赋予模型跨任务、跨场景的通用能力。常见策略包括:
1.单一领域数据训练: 早期方法主要在单一模态或单一来源数据上进行预训练,例如仅依赖图像—动作对、语言—动作对或视频—动作对。这类方法能够让模型获得初步的感知与动作表征能力,为后续多模态对齐奠定基础。然而,其在复杂任务中的泛化能力有限,难以适应开放环境;
2.跨域数据分阶段训练: 模型先在规模较大的互联网图文或视频数据上预训练,以学习通用视觉与语言表征;随后再在机器人操作数据上进行二次训练,从而逐步引入动作控制能力。这种“先通用,后专用”的方式,能够有效利用大规模数据先验,并缓解机器人数据稀缺的问题;
3.跨域数据联合训练: 不同于分阶段策略,联合训练方法在同一框架下同时利用图文、视频和机器人操作数据。通过统一的多模态对齐目标,模型能够在训练中直接学习感知—语言—动作之间的协同关系。这种方式有助于缩小模态间的分布差异,提升模型在跨任务与跨场景下的泛化性能,但对数据规模和训练资源的需求更高;
4.思维链增强: 近年来,研究者开始探索在 VLA 预训练中引入思维链(Chain-of-Thought, CoT)机制。通过显式建模推理链条,模型不仅能够执行简单的感知—动作映射,还能具备任务分解、逻辑推理与规划能力。这类方法为机器人从“能做”走向“会思考”提供了可能性,被认为是推动通用智能的重要方向。
VLA 后训练方法
后训练旨在利用有限的机器人数据或交互过程,对预训练的 VLA 模型进行进一步优化,以提升其在特定任务与真实环境中的表现。常见方式主要包括:
1.监督微调: 通过标注轨迹数据对模型进行端到端训练,使其学习到更精确的动作控制映射。这类方法简单直接,能够在特定任务中快速收敛。但其泛化能力依赖于标注数据的多样性和覆盖度,因此往往需要与预训练结合,才能在开放环境下保持稳健;
2.强化微调: 利用与环境交互数据对模型策略进行优化。强化微调在提升大语言模型和多模态大模型的推理能力方面发挥重要作用,其也被用于VLA后训练,常见方法包括训练强化学习策略生成数据,或直接使用强化学习微调VLA模型。相比监督微调,强化微调能更好地适应动态和获得更高的性能,提升模型的鲁棒性与长期任务完成能力,但也对训练成本和样本效率提出了更高要求;
3.推理扩展: 并非直接修改模型参数,而是通过增强推理过程提升模型性能。典型方式包括在推理阶段引入评价机制,通过多次推理与搜索辅助任务规划和动作选择。这类方法能够在不增加大量训练成本的前提下,提升模型的泛化与规划能力,是实现快速适应新任务的一条重要途径。
本文列举了 16 种使用监督微调的典型方法、10 种使用强化微调的典型方法及 5 种使用推理扩展的典型方法,并详细介绍了方法的主要贡献、发表刊物与实践。
VLA 模型评估
评估体系是衡量 VLA 模型性能的重要环节。现有评估主要分为三类:
1.基于真实世界评估: 此类方法通过在实体机器人和真实环境中直接执行任务来测试模型性能,能够最真实地反映模型的执行效果与鲁棒性。其优点在于结果可靠且具有实际参考价值,但由于实验成本高、可重复性差、测试效率低,难以进行大规模实验;
2.基于仿真器评估: 为降低成本与提升可重复性,研究者普遍采用高保真仿真平台(如 Isaac Gym、MuJoCo等)对 VLA 模型进行测试。仿真器能够提供统一的评测基准,支持大规模实验和跨方法对比,但其与真实世界存在差距,模型在仿真中表现良好并不一定能完全迁移至真实环境。本文列举了包括 SimplerEnv和 LIBERO在内的 7 种常用的仿真器评估环境,并对各个环境进行了详细介绍和总结相关典型方法;
3.基于世界模型评估: 随着世界模型的发展,一些工作尝试利用学习得到的环境模型进行虚拟评估。在这种框架下,VLA 模型可以在内部环境模拟器中进行快速迭代,显著降低了评估成本并提高了效率。尽管该方法能够支持大规模验证,但其评估的准确性依赖于世界模型的逼真度,目前仍存在偏差与可信度问题。
此外,很多研究还提出多维度评价指标,包括任务成功率、泛化能力、跨机器人迁移性和实时性等。综合评估体系有助于全面刻画 VLA 模型的能力边界。
3
—
具身操作的 VLA 模型展望
随着 VLA 模型在具身操作领域的快速发展,其未来研究方向与挑战逐渐清晰。本文认为 VLA 模型的演进将围绕以下几个方面展开:
1.泛化推理:VLA 模型在开放环境下执行任务时,仍然面临跨任务、跨场景和跨平台泛化不足的问题。未来研究需要进一步提升模型的推理与迁移能力,使其能够在未知任务和新环境中快速适应。同时,将语言模型的逻辑推理能力与机器人操作结合,发展出更强的任务分解与规划能力,将成为推动 VLA 迈向通用智能的关键。
2.精细操作:当前 VLA 在处理精细化和复杂操作任务(如柔性物体操作、双臂协作)时,仍存在局限。未来的发展方向是融合多模态感知信息(视觉、触觉、力觉、三维空间等),并在模型中建立更精确的动作生成与控制机制,以实现对细微交互的精准建模和执行。这将显著提升机器人在真实场景中的实用性和可靠性。
3.实时推理:由于模型规模庞大,VLA 在真实机器人上的推理速度和执行效率仍难以满足高频控制需求。未来亟需探索高效架构设计(如分层结构、线性复杂度模型)、模型压缩与端云协同推理等方法,以实现低延迟的实时控制。只有解决实时性问题,VLA 才能真正具备在开放世界中持续交互与自主操作的能力。
VLA 模型的发展,正让机器人从“会模仿”走向“能理解、会推理、能行动”。无论是跨任务的泛化推理,复杂任务中的精细操作,还是落地应用所需的实时推理,都在不断推动机器人智能的边界。未来,当机器人真正具备理解世界、精准操作、即时反应的能力时,通用型具身智能将不再只是愿景,而会走进我们的日常生活。
自动驾驶之心
论文辅导来啦

自驾交流群来啦!
自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com
1578

被折叠的 条评论
为什么被折叠?



