VLA 技术调研报告

VLA 技术调研报告

0. 前言

具身智能(Embodied AI)已从实验室概念走向产业落地,而“视觉-语言-动作”模型(VLA, Vision-Language-Action)正是当前行业公认的共性技术底座:从主机厂的城市 NOA 到仓储物流机器人,端到端 VLA 架构正在替代传统“感知-决策-控制”级联流程,成为新一代产品迭代的默认选择。鉴于公开资料中自动驾驶场景的数据最丰富、评测标准最统一、落地节奏最清晰,本报告首先以“车”作为切入口,系统梳理 VLA 的技术路线、性能边界与产业进展;对于同样高度依赖 VLA 的具身智能机器人赛道,将在后续报告中专题展开。

1. 概述

1.1 VLA 的定义及与相近概念对比

VLA(Vision-Language-Action Model)是一类将视觉感知、语言理解与动作生成熔于一炉的多模态大模型。它借助类人“思维链”(Chain-of-Thought,COT)完成对世界的高阶推理,并把 Action 直接作为模型输出,从而把 AI 从“被动辅助”推向“主动生产”,在自动驾驶、机器人等场景实现高度拟人化的实时决策与物理执行。

下表从目标、输入、输出到应用与优劣势,全面对比视觉-语言模型(VLM)与视觉-语言-动作模型(VLA)的核心差异。

特性VLM(视觉-语言模型)VLA(视觉-语言-动作模型)
核心目标感知+推理+对话感知+推理+执行
典型输入图像/视频+文本图像/视频+文本+历史状态
输出形式文本、标签或特征向量可执行动作(离散/连续)
主要应用图文问答、图像字幕、视觉问诊、图像生成等机器人控制、Web/桌面自动化、人机协作、自动驾驶等
代表模型CLIP、BLIP-2、Flamingo、GPT-4VRT-1/RT-2、SayCan、VIMA、Gato、HULC
推理机制语言生成、多模态对齐行为决策(策略输出)
突出优势多模态理解强、训练数据丰富、易落地直接作用于物理世界,体现智能体“行动力”
关键挑战无法闭环操作,停留在“看懂”层面训练难度高、安全/鲁棒要求严、跨域泛化困难

1.2 VLA 之于具身智能的必要性

技术发展呈螺旋式上升,具身智能亦遵循这一规律。当下阶段,VLA 在可扩展性与技术成熟度两条曲线上均处于高位,为产业提供了相对明确的迭代路径。然而,任何新兴技术都伴随不确定性——VLA 不是银弹,却是目前最具操作性的“登月梯”。

当前 VLA 技术栈呈“多线并进”态势,每条线都针对具身智能的关键瓶颈给出代表性解法,其支撑关系如表所示:

技术方向代表突破赋予 VLA 的核心能力
视觉理解CLIP、DINOv2、SAM开放世界目标检测与像素级分割
多模态对齐BLIP-2、Flamingo、LLaVA图文语义在同一潜空间的精准映射
大语言模型GPT-4、PaLM-2高层指令解析与可执行子任务分解
语言→动作SayCan、ACT、Instruct2Act将文本计划转化为可落地的动作 token
动作执行RL 控制器、GUI Agent、机械臂 SDK在真实或虚拟界面完成低层闭环操作
仿真交互AI2-THOR、Habitat、Mujoco低成本采集轨迹、快速迭代策略网络

这些模块层层递进,把“看见世界”→“理解指令”→“生成动作”→“作用于世界”的闭环跑通,为 VLA 提供了可扩展、可验证的技术底座。

1.3 VLA 落地的挑战

工业场景要把 VLA 从“demo”推向“产线”,必须同时翻越三座山:数据稀缺、模态对齐困难、模型极度复杂。下文以智能驾驶为例,逐点拆解。

1.3.1 数据稀缺——“量”与“质”双缺
  1. 量级与多样性双重不足
    • 可供训练的“图像+传感器+上一帧动作→下一帧动作”闭环序列,规模比图文对少 2–3 个数量级,且大多采集于简单工况,形成“数据不够→模型笨→不敢去复杂场景→还是拿不到数据”的死循环。
  2. 采集本身难
    • 需要时间同步的高频多传感器、精准控制信号与安全标注,一次路测成本 ≈ 普通图文标注的 10⁴ 倍;边缘 Case 出现概率低,主动挖掘仍像“大海捞针”。
1.3.2 多模态对齐——“视觉-时序-动作”三频共振难
  • 图像、语言、动作天生处于异质度量空间,embedding 一错位,方向盘直接打偏。
  • 输入侧变化剧烈:光照、遮挡、按钮样式、自然语言歧义,都会让对齐目标漂移。
  • 输出侧要求“像素级空间定位 + 毫秒级时机预测”,错 1 frame 就可能撞上护栏。
1.3.3 模型复杂——“大、慢、重”三合一
  • 参数爆炸:同时建模视觉、语言、动作且需长时序记忆,10 B 参数起步,推理延迟轻松过 100 ms。
  • 训练链路长:图像编码、文本解码、动作策略、强化微调四条流水线相互耦合,超参空间维度陡增。
  • 部署门槛高:车规级算力仅 100–200 TOPS,要把 10 B 模型剪枝-量化-蒸馏到 1 B 以内,仍保持 ≥99.5 % 安全精度,工程难度堪比“把大象塞进冰箱还要让它跑百米”。

综上,数据、对齐、复杂度三座大山层层叠加,使 VLA 在工业落地时“看起来只差 1 %,实则差 1 到 2 个数量级”。

2. 典型模型架构

2.1 技术分类

2. 典型模型架构

2.1 技术分类

路线类型简述代表模型技术关键点
行为克隆(BC)直接从人类示范中学习“感知-语言-动作”映射RT-1 / RT-2 / HULC多模态行为建模 + 百万级示范数据
语言规划+动作执行(分层)LLM 输出高层意图,底层策略负责实时动作SayCan / InnerMonologueLLM + Value Function + 低层控制接口
多模态端到端强化学习图像+语言→动作,由 RL 统一优化Gato / VIMA跨模态融合 + 端到端策略网络
仿真驱动模仿学习用仿真器批量生成轨迹,再迁移到真机VRL3 / RoboRT-1仿真-现实迁移 + 模仿学习
Diffusion Policy以扩散模型生成高维连续动作轨迹Diffusion-Action / ActDiff动作即概率分布,兼顾多样性与精度

2.2 开山之作:RT-2 框架

2023 年 7 月,谷歌 DeepMind 发布 RT-2(Robotic Transformer 2),首次把互联网级视觉-语言大模型直接“掰”成机器人控制器。其核心创新可归纳为两点——动作文本化与联合微调——一举将网络知识迁移到物理控制,实现泛化能力与语义推理的阶跃式提升。

1. 动作文本化编码
  • 把关节角、末端位姿等连续动作离散成文本 token,与指令、图像拼成同一序列输入 PaLM-E 类大模型。
    例:移动机械臂至 (x, y, z) → 字符串 "MOV 324 567 890"
  • 优势:无需额外动作解码器,复用现成 VLM 架构,训练流程简化,跨模态对齐天然内嵌。
2. 联合微调
  • 同一批次里混合互联网图文任务(VQA、字幕)与机器人轨迹数据,双目标共同优化。
  • 效果:网络语义知识增强“理解”,机器人数据保留“精度”,二者互补,无需牺牲任何一端。

下图摘自 RT-2 原论文,直观展示“文本化动作”如何与视觉-语言 token 并排进入 Transformer,完成端到端的 Vision-Language-Action 建模。

2.3 OpenVLA:首个全开源 VLA 基座

2024 年 3 月,丰田、谷歌、斯坦福与 UC 伯克利联合发布 OpenVLA,向社区交出 70 亿参数、97 万条真实机器人演示训练而成的视觉-语言-动作大模型。6 月 13 日,完整检查点、微调笔记本与 PyTorch 代码库一并开源,成为业界首个可复现、可二次开发的 VLA 基座。

性能亮点

  • 29 项任务平均成功率比 550 亿参数的 RT-2-X 高出 16.5 %,参数仅 1/7。
  • 多任务泛化与语言接地能力领先 Diffusion Policy 20.4 %。
  • 支持 LoRA/QLoRA 低秩适应,消费级 GPU 即可微调;量化后 24 GB 显存部署。

核心创新

  1. 打破封闭:首次把 7B 规模 VLA 完整开源,终结 RT-2 系列“黑盒”时代。
  2. 降低门槛:提供一键微调脚本与 Open X-Embodiment 数据接口,开发者无需从头训练即可在数小时内定制专属机器人技能,显著缩短落地周期。

2.4 端到端自驾新范式:OpenDriveVLA

慕尼黑工业大学团队提出的 OpenDriveVLA 专为端到端自动驾驶打造,通过“视觉-语言-动作”三位一体架构,让模型直接依据环境语义输出驾驶决策。其技术突破集中在两点:

  1. 层次化视觉-语言对齐
    先将 2D 图像与激光雷达点云生成的 BEV 3D 特征分别编码,再统一投影到共享语义空间,消除视觉与语言模态差异,使一条自然语言指令即可对齐图像-点云联合表征。

  2. 自回归代理-环境-自车交互建模
    用自回归方式依次刻画自车、他车、行人及道路元素的高阶动态关系,轨迹规划同时满足“空间安全(避碰)”与“行为逻辑(交规、意图预测)”,生成更安全、合理的驾驶路径。

2.5 Helix:面向通用人形机器人的量产级 VLA

2025 年 2 月 20 日,Figure.AI 发布 Helix,率先将“快慢双系统”架构推向量产,被业界视为“机器人领域的 OpenAI”。其核心亮点可概括为“五极”:

  1. 极快
    • 高频系统 200 Hz 连续输出 35-DOF 全身动作,刷新率比 RT-2(1–5 Hz)高两个数量级,实现手指、腕、臂、躯干同步精细控制。
  2. 极简
    • 单一大模型端到端:自然语言→视觉→动作,无需额外控制模块或后处理。
  3. 极省训练
    • 零专用微调即可适应抓取、搬运、插拔等 20+ 高级行为,打破“一种任务一次微调”的惯例。
  4. 极强泛化
    • 直接回归高维连续动作空间,放弃 RT-2/OpenVLA 的离散 tokenization,彻底解决高维人形控制“维度灾难”。
  5. 极少数据
    • 仅 500 小时多机、多操作员远程操作数据完成训练,数据量不到常规 VLA 预训练集的 1/20,显著降低落地门槛。

Helix 的五极特性让通用人形机器人首次走出实验室,迈向产线与家庭。

2.6 DP-VLA:让双系统架构在机器人手里“跑”起来

由清华大学与鹏城实验室联合团队提出的双过程视觉-语言-动作模型(DP-VLA),直击当前 VLA 的实时痛点——“大模型推理慢、控制频率低”。该团队借鉴认知科学的“快-慢双系统”理论,将计算划分为:

  • System 1(快):轻量级扩散策略,10 ms 内输出 100 Hz 高频连续力矩,负责“手-眼”闭环;
  • System 2(慢):7B VLM 每 0.5 s 给出一次高层意图向量,指挥“抓哪里、用多大力”。

两系统通过 128 维潜意图向量耦合,快系统实时跟踪,慢系统异步刷新,实现“高频低延迟 + 高层语义”兼得。在 6-DOF 机械臂与并联夹爪上实测,DP-VLA 在 1 kHz 控制回路下仍保持 95 % 成功率,推理延迟较单一大模型降低 83 %,功耗降至 15 W,可在边缘 GPU 部署,为 VLA 走向量产提供了一条“大模型不瘦身也能实时”的新路径。

2.7 CoVLA:面向“长尾”场景的全栈视觉-语言-动作数据集

CoVLA 的核心使命是“用数据终结长尾”。为此,德国波恩大学与滴滴出行联合团队首次构建并开源了迄今规模最大、标注最密的多模态自动驾驶数据集:涵盖 10 000 段真实驾驶、80+ 小时 1080p 视频、同步 GNSS/IMU/CAN 信号及未来 3 秒逐帧轨迹,同时发布配套端到端基线模型,一举将复杂场景推理与细粒度规划推向可扩展、可复现的新台阶。

2.7.1 技术亮点 1——提出 CoVLA 数据集
  1. 十万公里级多模态同步

    • 10 000 段真实驾驶片段、80+ 小时 1080p@20 Hz 前视视频,覆盖城市、高速、雨夜、隧道等 20 类长尾场景
    • 每帧同步 GNSS/IMU/CAN 总线信号,并标注未来 3 s(60 帧)世界坐标系轨迹 (x,y,z)
    • 原始 1000 + 小时数据经质量筛选→CoVLA 子集,规模与标注密度均超 BDD-X、DRAMA 一个量级
  2. 全自动标注 Pipeline

    • 轨迹:卡尔曼滤波融合 GNSS/IMU,启发式离群剔除,定位误差 < 5 cm
    • 目标:雷达-视觉前向融合检测前车;OpenLenda-s 实时解析交通灯含箭头状态
    • 字幕双通道生成
      ‑ 规则通道:车速、加速度和转向角→结构化描述
      ‑ VLM 通道:VideoLLaMA 2 在 60 帧窗口内采样 8 帧,生成天气、风险等自然语言细节
      ‑ 幻觉抑制:以规则字幕为“事实锚”,约束 VLM 不得虚构,窄路、湿滑等描述准确率提升 18 %
  3. 分布再平衡策略

    • 逆经验采样:对车速、转向角、信号灯做重要性重采样,确保急弯、急加减速等低频事件比例提升 3–5 倍
    • 最终数据集在速度-转向联合空间覆盖率达 97 %,为模型提供均匀且长尾友好的训练分布

CoVLA 用“十万公里真数据+全自动密标注+再平衡采样”三板斧,为 VLA 模型提供了可扩展的“长尾燃料”,显著提升了在复杂驾驶推理与规划上的上限。

2.7.2 技术亮点 2——CoVLA-Agent:可解释端到端 VLA 驾驶系统
  1. 架构创新

    • 三流合一:CLIP 视觉编码器提取场景特征,LLaMA-2 负责文本指令与推理,专用 MLP 融合车速/加速度和 GNSS 等数值信号,实现“图像输入 → 语言描述 + 轨迹预测”一条网络直通。
    • 轨迹查询令牌:在 LLM 词表内插入 10 个可学习 <traj_i> 令牌,强制模型一次性生成未来 3 秒、10 个相对坐标轨迹点,并以 MSE 损失端到端优化,避免后期解码误差累积。
  2. 多任务联合训练
    场景描述与轨迹预测共享主干,加权交叉熵(字幕)+ MSE(轨迹)同步反向传播。语言分支的“右转”语义梯度直接对齐动作分支的横向偏移,实现“说转就转”的一致性。

  3. 性能与可解释性

    • 真值字幕条件下,ADE 降至 0.814 m,FDE 1.655 m;若改用模型自生成字幕,ADE 升至 0.955 m,FDE 2.239 m——首次量化证明高质量标注对 VLA 驾驶的决定性作用。
    • 推理过程透明:模型可输出“前车减速,故提前轻刹”等自然语言解释,便于开发者追溯单帧误判或横向偏差根因,实现“错误可复盘、决策可审计”。

2.8 DriveDreamer4D:把世界模型变成 4D 场景生成器

理想汽车团队提出的 DriveDreamer4D,首次将自动驾驶世界模型升格为“4D 数据机器”,可在闭环仿真中随意“加减速、变道、切入”,一次性生成时空一致的多视角视频 + 3D 高斯,端到端自动驾驶的评测不再受限于实车采集。

2.8.1 背景与痛点
  1. 闭环仿真缺数据

    • NeRF/3DGS 类方法只能复现“采集时的轨迹”,无法渲染变道、急刹等关键操作,导致算法在极端场景下“无场景可测”。
  2. 世界模型停留在 2D

    • 现有 DriveDreamer、GenAD 等可生成多样驾驶视频,但输出仅为 2D 像素流,缺乏时空一致的 4D 表示,难以直接用于感知或规划模块的闭环评测。
2.8.2 DriveDreamer4D 框架
  1. 新颖轨迹视频生成模块(NTGM)

    • 把世界模型当“数据发动机”:输入任意转向角、速度曲线,即刻输出对应轨迹的多视角视频。
    • 引入 3D 边界框与可行驶区域 mask 作为结构化条件,保证车辆、行人、交通灯在时空维度同步且物理合理。
    • 单卡 A100 30 min 即可生成 1 km 复杂轨迹(含变道、加减速)的多视角 4D 数据包。
  2. 表亲数据训练策略(CDTS)

    • 将“真实数据”与 NTGM 合成数据视为时间对齐的“表亲”,混合喂给 4D Gaussian Splatting(4DGS)网络。
    • 设计感知一致性正则化损失,约束相同 3D 框在真实/合成视角下特征差异 < 阈值,显著缩小分布 gap。
    • 实验表明:仅 20 % 真实数据 + 80 % 合成数据,即可在 Waymo Open 闭环评测中取得与 100 % 真实数据相当的规划成功率,且渲染速度提升 3.4×。

DriveDreamer4D 让“世界模型”第一次升级为“4D 场景工厂”,为端到端自动驾驶提供了可任意编辑、时空一致、即生即用的闭环仿真燃料。

2.9 DrivingSphere:高保真 4D 闭环仿真世界

理想汽车团队提出 DrivingSphere,首次把“静态街景-动态交通-时空一致”三要素同时塞进一个 4D 占据网格,再实时渲染成任意视角视频,为端到端自动驾驶提供“像素-几何-语义”三面一致的闭环考场。

核心模块
  1. 动态环境合成器

    • 以 4D 占据网格(4D-Occ)统一表达建筑、植被、车辆、行人等所有元素;每体素带 ID 语义与运动矢量,可一键编辑“变道、切入、急刹”等复杂剧本。
    • 引入 ID-感知编码,保证同一实例跨帧、跨视角特征恒定,彻底解决“换视角就换车”的闪烁顽疾。
  2. 视觉场景合成器

    • 将 4D-Occ 实时解码为多视角 1080p 视频,帧间光流误差 < 0.5 px;支持雨天、夜间、阴影等视觉特效,且与占据网格几何严格对齐。
    • 采用级联扩散架构:低分辨率保证时空一致,高分辨率补纹理细节,单卡 A100 生成 1 km 场景仅需 18 min。
实验结果
  • 视觉保真度:FVD 103.42,较 MagicDrive 降低 28 %。
  • 开-闭环综合指标:PDMS 0.742,RC 11.72 %,均刷新公开榜单最佳成绩。
  • 域差距:在 Waymo Open 实车测试集上,DrivingSphere 训练的策略与真实数据训练策略的差距 < 1.3 %,首次把仿真-真实鸿沟压到“误差带”量级。

DrivingSphere 让“仿真即实车”成为可量化的指标,为端到端自动驾驶提供了可任意编辑、物理严格、视觉逼真的 4D 闭环宇宙。

3. 行业进展

3.1 理想汽车

技术资料
  • NVIDIA GTC 2025 公开讲稿(含 VLA 进展)
    PDF 下载
理想 VLA 相关论文
  1. GaussianAD: Gaussian-Centric End-to-End Autonomous Driving
  2. Generalizing Motion Planners with Mixture of Experts for Autonomous Driving
  3. Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving
  4. StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models
  5. Balanced 3DGS: Gaussian-wise Parallelism Rendering with Fine-Grained Tiling
  6. ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration
  7. DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation
  8. DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

3.2 小鹏汽车

小鹏汽车在新 X9 发布上市之前,做了一场 AI 技术分享会,再次强调了自己是一家 AI 驱动的技术公司。而这次技术分享会的一个核心内容就是:小鹏汽车正在研发 VLA 基座模型,也在研发“世界模型”,而且小鹏汽车已经拥有 10 EFLOPS 的算力。可以说,小鹏汽车整个智驾技术路线也已经向业界下一代主流路线 VLA 开始迭代。

3.3 元戎启行

元戎启行则更进一步,于 2025 年 1 月 22 日宣布与某头部车企合作,基于英伟达 Thor 芯片推出 VLA 量产车型,计划年内交付消费者,元戎还透露将在 Robotaxi 领域探索 VLA 应用,展现了技术普适性的野心。

3 月 30 日,在百人会智能汽车创新技术与产业论坛上,元戎启行 CEO 周光表示已完成 VLA 模型的道路测试,并将基于 VLA 模型打造全系列的智能驾驶系统产品,涵盖激光雷达与纯视觉方案,适配多种芯片平台,预计 2025 年将有超 5 款搭载 VLA 模型的车型进入消费者市场。周光认为,VLA 模型作为当下最先进的技术,使汽车成为了 AI 智能体,在需求暴涨的背景下,VLA 模型将重塑市场格局。详情

3.4 小米汽车

2025 年 3 月中旬,小米汽车与华中科技大学联合发表论文:
ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
并在其中提出了一种全新的端到端自动驾驶框架 ORION,旨在解决现有方法在闭环评估中因果推理能力不足的问题。

核心内容如下:

  1. 研究背景与挑战
    1. 端到端自动驾驶的瓶颈:传统端到端方法在闭环评估中因为因果推理能力有限,难以做出正确决策。尽管视觉语言模型(VLM)具备强大的理解和推理能力,但其语义推理空间与动作空间的数值轨迹输出存在鸿沟,导致闭环性能不佳。
    2. 现有方法的缺陷:
      1. 直接文本输出:VLM 不擅长数值推理,且自回归机制无法处理人类规划的不确定性。
      2. 元动作辅助:VLM 与经典端到端方法解耦,无法协同优化轨迹和推理过程。

4. 结论

就 VLA 当下的答卷而言,它更像通往终点的“中继站”而非终点本身。决定成败的钥匙仍在数据——每一对 <input, action> 是否精准刻画了“人-车-场景”的微妙互动。上层模型再华丽,归根结底比拼的是对物理世界建模的细腻度与真实度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值