VLA视觉-语言-动作模型的综述

原创已于 2025-11-18 16:02:13 修改 · 930 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-11-18 14:24:29 首次发布

部署运行你感兴趣的模型镜像

2025年7月来自北大和北大-灵初智能（Psibot）联合实验室的论文“ A Survey on Vision-Language-Action Models: An Action Tokenization Perspective ”

视觉-语言-行动（VLA）模型定义：在视觉和语言输入条件下生成行动的模型，并且至少基于一个大规模视觉或语言基础模型构建。

一、摘要

视觉和语言基础模型在多模态理解、推理和生成方面的显著进步，激发了将此类智能扩展到物理世界的努力，推动了视觉-语言-行动（VLA）模型的蓬勃发展。尽管看似采用多样化的方法，我们发现当前的 VLA 模型可以统一在一个单一框架下：视觉和语言输入由一系列 VLA 模块处理，产生一个逐步编码更具体和可执行信息的行动标记链，最终生成可执行的动作。

图 1: 我们从动作标记化的视角展示了一个统一的 VLA 框架。动作标记泛指 VLA 迭代生成的任何描述性指导，最终导致动作执行，其概念超越了原始动作

我们进一步确定，区分 VLA 模型的主要设计选择在于行动标记的制定方式，动作标记可以分类为：语言描述、代码、可供性、轨迹、目标状态、潜在表示、原始动作和推理。

作者指出，区分不同VLA模型的最关键设计选择，就在于它们如何定义和生成“行动标记”。

他们将这些方式归纳为八大类：

语言描述（Language）：用自然语言描述动作（如“拿起那个红色的杯子”）。

代码（Code）：生成可执行的程序代码（如 robot.pick_up(“red_cup”)）。

可供性（Affordance）：指物体提供的行动可能性（如“可抓取的”、“可按压的”），模型根据这些属性来行动。

轨迹（Trajectory）：生成机器人关节或末端执行器在空间中的运动路径点。

目标状态（Goal State）：描述任务完成后的世界状态（如“杯子在桌子上”），让模型自行规划如何达到该状态。

潜在表示（Latent）：在抽象的、压缩的潜在空间中表示动作，通常由深度学习模型内部使用。

原始动作（Raw Action）：输出底层的、直接的控制命令（如电机的速度、扭矩）。

推理（Reasoning）：在输出最终动作前，先生成一步或多步的推理过程（如“首先，我需要找到杯子……”）。

语言与视觉基础模型的演进图

图 3: 基础模型、VLA 模型和数据源的演化时间线。U 形反映了 VLA 的日益普及是如何得到基础模型和数据进步的支持的。

然而，对于行动标记的理解仍然缺乏全面性，这严重阻碍了有效的 VLA 开发，并模糊了未来的发展方向。因此，本综述旨在通过动作标记化的视角对现有的 VLA 研究进行分类和解读，提炼每种标记类型的优缺点，并确定改进领域。

二、执行摘要

执行摘要从以下五个层面进行总体叙述：

思想层面，要从“哪种标记最好”的争论，转向“如何最佳地组合它们”。

技术层面，要关注分层架构、世界模型、代码库构建和推理能力的集成。

系统层面，要致力于构建具有记忆和反思能力的主动智能体，而不仅仅是模型。

生态层面，必须正视数据与硬件的制约，推动三者的共同发展。

伦理层面，安全与对齐是保证技术健康发展的基石。

2.1 VLA 统一框架的核心与基石：动作标记

2.2 核心趋势：从“单一”到“融合”

摘要最具价值的观点在于，它明确指出未来的赢家不是某一种动作标记，而是它们的战略组合。这是一种“系统工程”思维。

语言：单独作为动作输出表达力不足，但作为高层规划不可或缺。
代码：被寄予厚望，是解决复杂长周期任务的关键。其潜力发挥依赖于构建一个强大的、集成了感知和动作功能的代码库，让模型像调用API一样指挥机器人。
“可供性-轨迹”黄金搭档：这是一个关键洞察。
- 可供性 回答“做什么”（例如，“这个物体是可抓握的”）。
- 轨迹回答“怎么做”（例如，“机械手应以这个路径移动”）。
- 二者的结合形成了从语义意图到具体执行的完美桥梁。
世界模型的支持：世界模型能够预测执行动作后的目标状态，从而为“可供性-轨迹”的生成提供锚点和指导，使规划更加准确和合理。
潜在表示与原始动作：代表了端到端学习的理想终点，但目前受限于数据和训练难度，是长远发展方向。
推理作为“元标记”：这是思想的升华。推理不再是一种独立的动作类型，而是增强所有其他动作标记的“元能力”。它从纯语言推理，进化到基于动作标记的推理，并能结合实时环境反馈动态调整。

2.3 架构演进：分层设计与端到端愿景

有效的 VLA 模型可能会采用分层架构，顶层使用语言描述和代码执行长期规划和逻辑控制。

短期内：下层预计将紧密集成目标状态的视频预测、轨迹的流建模以及可供性的 3D 交互预测，形成中间运动表示，最终映射到原始动作。
长期来看：下层将演变为完全端到端的方法，直接从子任务级输入预测原始动作。推理始终根据需要在 VLA 模型中集成。

2.4 学习范式：从模仿到强化学习

模仿学习的局限：只能学习数据集里见过的行为，缺乏创新和应对新情况的能力。
强化学习的未来： enabling 试错与探索，这是实现更高级、更类人智能的关键。
挑战与解决方案：
- 挑战：在真实机器人上做RL成本高、效率低、不安全。
- 解决方案：需要更高效的RL算法；同时，可以利用视觉语言模型自动生成奖励函数，大大加速训练。

2.5 系统演进：从模型到智能体

VLA模型：一个被动的、处理一次请求生成一次动作的系统。
VLA智能体：一个主动的、具有持续性的认知系统。它拥有更广泛记忆、探索、规划和反思认知架构的主动系统，能够增强感知-行动能力。
架构变化：这要求系统从目前的线性处理流，转变为更复杂的、带反馈循环的图结构。

2.6 发展的基石：模型、数据与硬件的协同

VLA领域发展的根本瓶颈：

现状：大多数研究被困在数据稀缺和硬件平台单一/受限的实验室环境中，导致模型无法接触真实世界的复杂性。
核心论点：进展不是仅靠更好的模型就能实现的，必须模型、数据、硬件三者协同进化。更好的硬件产生更丰富的数据，更丰富的数据训练出更强大的模型，更强大的模型又能驱动更复杂的硬件。

2.7 安全与对齐

在追求能力的同时，摘要发出了重要警告：必须将安全性和人类价值观对齐作为优先事项进行研究，否则强大的VLA智能体可能带来无法预知的风险。

三、引言

大型语言模型（LLMs）：在自然语言理解、推理和生成方面表现出色，成为许多基于文本应用的核心。
视觉基础模型（VFMs）：如 CLIP、DINO 和 SAM，在广泛的视觉任务中展现出强大的泛化能力。
视觉语言模型（VLMs）：如 GPT-4o、Gemini 2.5 Pro 和 Qwen2.5-VL，整合视觉和文本模态，以实现多模态处理和生成。
视觉-语言-行动模型（VLA）：是因为LLMs，VFMs和VLMs只限制于数字世界，需要将它们的智能扩展到物理世界，所以提出VLA模型。

早期VLA实现的四大流派：

1. 高层规划派（语言/代码）

代表模型：SayCan, PaLM-E, Code as Policies

核心思想：利用大语言模型强大的推理和规划能力，生成高级别的行动计划。

动作标记：语言描述 或代码。

工作流程：

VLM/LLM：分析视觉和语言指令，输出一个用自然语言或Python代码编写的计划。

低级控制器：解释并执行这个计划。

特点：发挥了LLM的通用知识和高层推理优势，将复杂的任务分解为可执行的步骤。

2. 知识提取派（可供性/轨迹）

核心思想：不依赖LLM做完整规划，而是从基础模型中提取对控制有直接价值的“知识”。

动作标记：可供性 或轨迹。

工作流程：

让基础模型直接标注出环境中可供交互的区域，或预测一个粗略的运动路径。

这些信息作为指导，交给下游的传统控制算法去精细执行。

特点：更轻量、直接，专注于利用基础模型的空间和物理常识。

3. 潜在表示派

核心思想：通过专门的预训练，学习一个关于“动作序列”的紧凑、抽象的表示。

动作标记：潜在表示。

工作流程：

训练一个视觉语言模型来预测这个抽象的动作表示。

一个专用的、训练好的策略控制器 将这个潜在表示解码成具体的电机命令。

特点：这是一个折中方案，既拥有了抽象语义，又保持了适用于控制的高效性。

4. 端到端派

核心思想：相信“规模法则”，即用超大规模的数据和模型，直接端到端地训练出通用智能体。

动作标记：倾向于 “原始动作”。

工作流程：收集巨量机器人交互数据，在大型视觉语言模型的基础上，直接训练模型从感知输入映射到动作输出。

特点：是最终极、最纯粹的方案，但也是对数据和质量要求最高的方案。

图 2: 单个具身任务中动作 token 的可视化。在相同视觉和语言输入的情况下，不同的 VLA 模型将它们编码成不同的动作 token，每个 token 传递不同形式的可执行指导，并需要不同的 token 生成和后处理策略。

（解读上面的图）

任务输入

初始图像：一个包含茶壶、茶杯、杯垫等物体的场景。

用户指令： “I am feeling thirsty. Please pour me a cup of tea and place the teacup on the coaster.”（我渴了，请给我倒杯茶并把茶杯放在杯垫上。）

八种动作标记详解

图的下面八行，分别对应了八种动作标记类型，从左到右展示了从“抽象思考”到“具体执行”的渐变过程。

1. 语言描述

内容： “Pick up the teapot” -> “Pour tea into the cup” -> ... （拿起茶壶 -> 往杯里倒茶 -> ...）

解读：这是最抽象的一层，用自然语言描述了一系列子任务。它规划了“做什么”，但没有说明“怎么做”。人类最容易理解，但机器人不能直接执行。

2. 代码

内容： Hand grasp (handle), arm.lift(lift_height), hand.move_to(cup_top) ... （手部抓握（手柄），手臂抬起（高度），手移动到杯口...）

解读：将动作表示为可执行的代码或API调用。它比语言描述更结构化、更精确，指定了操作的对象和参数，可以被一个解释器理解并执行。

3. 可供性

内容：展示了不同的视觉标注，如抓取点、放置区域等。

解读：直接标识出环境中可以交互的区域。例如，“茶壶手柄”是一个可供抓取的点，“杯垫中心”是一个可供放置的区域。模型输出的是交互的可能性，而非具体动作。

4. 轨迹

内容：用箭头和路径点展示了机器人手臂在空间中的运动轨迹。

解读：给出了从A点移动到B点的具体空间路径。这是“怎么做”的几何层面描述，通常由运动规划器生成。

5. 目标状态

内容：展示了任务完成后的目标图像。

解读：不关心过程，只描述最终要达到的视觉状态——茶杯稳稳地放在杯垫上。机器人需要自己推理出达到这个状态所需的动作序列。

6. 潜在表示

内容：看起来像是一堆抽象的马赛克或特征图。

解读：这是一种抽象的、机器才能理解的表示。它通过专门的训练，将“倒茶”这个任务编码成一个紧凑的数学向量。这个向量本身没有直观意义，但可以被一个“解码器”转换成具体动作。

7. 原始动作

内容： AT = [0.2, -0.2, 0.1], AR = [15', 16', 22'] ... （可能是平移和旋转向量）

解读：这是最底层、最直接的电机控制命令。AT可能代表动作的平移，AR代表动作的旋转。这些是直接发送给机器人关节或电机的低级指令。

8. 推理

内容： “First I locate the teapot. Since ... The handle is a good grasp point...” （首先我定位茶壶。因为...手柄是一个很好的抓握点...）

解读：这代表了模型的 “思维链条” 。它不是一个直接的动作，而是生成动作之前的理由和思考过程。这极大地增强了模型决策的可解释性，并常常能提高任务的成功率。

四、语言与视觉基础模型的演进

4.1 语言基础模型的技术演进：从架构革新到生态繁荣

语言基础模型的崛起是一个由核心架构创新、训练范式转变、规模扩展定律以及对效率与对齐的不懈追求共同推动的进程。其发展脉络可清晰地归纳为以下几个关键阶段与方面：

1. 架构奠基与早期探索

Transformer 的引入：一切的起点是Transformer架构的提出。其核心机制——多头自注意力和编码器-解码器结构——为实现可扩展的序列建模和高效的序列到序列生成奠定了基础。
双向编码器之路：以 BERT 为代表，通过掩码语言建模等自监督目标在无标签语料上预训练双向Transformer编码器，学会了丰富的上下文感知表示，显著提升了各类下游任务的性能。通用句子编码器和 T5 也沿用了编码器或编码器-解码器结构，致力于生成高质量的通用语义编码或将所有任务统一为文本到文本格式。

2. 自回归范式与规模定律

GPT 与仅解码器架构：GPT系列模型开创了另一条道路，将所有任务视为下一词预测，并采用仅解码器（自回归） 的Transformer架构。
规模扩展的突破：GPT-3 通过将模型参数和训练数据规模推向极致，不仅展现了强大的语言能力，更出现了情境学习等涌现行为。这验证了“缩放定律”的正确性，即模型性能与规模、数据量、计算量之间存在可预测关系，标志着大型语言模型（LLM）时代的正式开启。

3. 能力增强与价值对齐

从能力到意图对齐：为了引导强大的LLM遵循人类指令，InstructGPT 引入了 监督微调和基于人类反馈的强化学习 这套方法论。此后，确保模型与人类偏好、安全及价值观对齐的技术成为研究重点。
推理能力的进化：前沿模型如 OpenAI o1 和 DeepSeek-R1 通过动态分配测试时计算（一种“慢思考”机制）和大规模强化学习，专门针对复杂推理任务进行了优化，显著提升了推理性能。

4. 开源化与高效适配

开源模型的繁荣：为克服闭源商业模型（如GPT-4、Claude）在可审查性、可定制性上的限制，开源社区推出了 Llama、Gemma、Mistral 等一系列强大的开源模型，覆盖了从2B到70B的参数规模。
高效微调技术：参数高效微调 技术，尤其是 LoRA，使得研究者能够以极低的计算成本，使用少量可训练参数对大型基础模型进行任务适配，极大地降低了应用门槛。

5. 架构创新与效率优化

扩展容量的新路径：专家混合模型（如 Mixtral）通过为每个输入动态激活部分网络，在几乎不增加计算成本的前提下，显著提升了模型的有效容量。
超越Transformer的探索：为克服Transformer在长序列上的二次计算复杂度，诸如 Mamba 等新架构被提出。它利用选择性状态空间模型实现了线性时间的序列建模，并在长上下文任务中表现出色。
系统工程的支持：在基础设施层面，通过数据、模型、流水线、张量并行等分布式训练策略，以及量化、剪枝、推测解码等推理加速技术，保证了LLM训练和部署的高效与可行。

综上所述，语言基础模型已经发展成为一个层次丰富、生态多元的技术领域。它们在知识、对话、代码和推理方面展现出卓越能力，并拥有了成熟的训练、微调与部署设施。这一领域的全面进步，为开发更复杂的视觉和多模态系统，乃至最终的具身智能视觉-语言-行动模型，提供了不可或缺的核心构建模块。

4.2 视觉基础模型的技术演进：从统一架构到通用能力

计算机视觉领域在Transformer架构取得成功后，经历了从卷积神经网络到视觉Transformer的范式转变。这一变革催生了各类强大的视觉基础模型，其发展路径可清晰地归纳为以下几个层面：

1. 基础架构革新：视觉Transformer

核心转变：视觉Transformer（ViT） 替代CNN成为主干网络，它将图像视为一系列图像块的序列，统一了视觉与语言数据的处理格式。
关键意义：这种表示方法极大地促进了后续多模态模型中的跨模态对齐与融合。

2. 通用视觉表征学习

在ViT的基础上，研究者探索了不同的学习范式以从海量数据中学习通用视觉特征。

基于文本监督的对比学习：
- CLIP：开创性模型，通过在亿级图像-文本对上进行对比学习，学会了强大的、可泛化的图像表征，并展现出卓越的零样本迁移能力。
- SigLIP：通过用Sigmoid损失替代Softmax，提升了训练效率和性能。
- 局限性：CLIP/SigLIP的特征偏向高级语义，可能缺乏对像素级细节的感知。
自监督学习：
- DINO：通过自监督方式直接学习，获得富含细节的视觉特征，特别有利于语义分割、深度估计等细粒度任务，并能理解深层语义（如识别“飞机翅膀”与“鸟翅膀”的相似性）。
技术优化：通过引入可学习的注册标记等改进，消除了ViT特征图中的伪影，提升了密集预测任务的性能。

3. 专用视觉任务基础模型

在通用表征模型的基础上，研究者开发了针对特定感知任务的基础模型，实现了“开箱即用”的先进视觉能力。

分割一切：
- SAM 及其升级版 SAM 2，是可提示的分割基础模型，能够根据点、框等输入生成高质量掩码，并将能力从图像扩展至视频。
开放词汇检测与定位：
- GLIP：将CLIP式的对齐能力扩展到区域级别。
- Grounding DINO 系列：采用DETR风格架构，在开放词汇定位上取得优异性能。
- Grounded SAM 系列：将定位模型与分割模型结合，实现了强大的零样本语言驱动分割与视频物体追踪。
视频理解与追踪：
- Cutie：鲁棒的视频对象分割模型。
- SAMURAI：为SAM 2引入运动建模，增强了视觉目标跟踪性能。
- CoTracker：专注于长视频序列中的密集点跟踪。
深度估计：
- Depth Anything 系列：利用大规模伪标签和合成数据，致力于鲁棒的单目深度估计。

4. 生成式模型与世界模型

扩散模型已成为高保真视觉内容生成的主流，其中先进的模型因其编码了大量物理常识而被称为“世界模型”。

图像生成：
- 从 DALL-E 2, Imagen 到开源的 Stable Diffusion，展示了强大的文本到图像生成能力。
- ControlNet 等模型通过引入空间条件控制，实现了对生成内容结构和布局的精细操控。
视频生成与动态模拟：
- VideoCrafter, PVDM 等模型将扩散过程扩展至时间维度。
- Sora 通过采用流匹配等先进技术，能生成时间一致性极佳的长视频，并学习到物理先验。
- Genie 系列则能根据动作序列模拟未来的视觉动态，预测环境的演变。

5. 机器人相关的专用感知模型

部分研究直接聚焦于为机器人操作提供基础的、可泛化的感知能力。

FoundationPose：一个统一的模型，用于对未见过的物体进行鲁棒且可泛化的6D姿态估计与跟踪。
HaMeR：利用大规模数据，从单目输入中准确恢复手部网格模型，为灵巧操作任务提供支持。

综上所述，视觉基础模型在表征学习、任务专用能力和生成建模方面提供了通用解决方案。它们的进步极大地加速了多模态学习的发展，并赋能了广泛的真实世界应用，是构建更高级智能（如VLA模型）不可或缺的视觉基石。

4.3 视觉-语言模型

视觉与语言基础模型的进步，直接催生了能将两者深度融合的视觉-语言模型。其发展路径可清晰地划分为以下几个阶段与流派：

1. 早期探索与架构创新

早期的研究致力于探索如何有效地桥接视觉与语言两个模态。

BLIP 系列：
- BLIP：开创性地提出了统一的多模态混合编码器-解码器 架构，并设计了数据自举策略，为社区贡献了高质量的训练数据。
- BLIP-2：确立了 “冻结预训练模型 + 轻量级连接器” 的高效范式。它提出的 Q-Former 和两阶段训练策略，能够以极小的训练成本，高效地对齐冻结的图像编码器与大语言模型。
Flamingo：采用了感知器重采样器和门控交叉注意力等复杂组件，其处理交错视觉-文本序列的能力，使其具备了强大的少样本学习能力。

2. 架构简化与社区普及

随着技术成熟，研究重点转向如何以更简单、更高效的方式构建强大的VLM。

LLaVA 系列：
- LLaVA 是此路径的里程碑。它证明了仅用一个简单的线性投影连接CLIP视觉编码器和LLaMA LLM，并结合GPT-4合成的指令数据，就能实现令人惊艳的性能。
- LLaVA-1.5 通过改用MLP投影、更强的视觉编码器和更大数据集，进一步巩固了这一简洁架构的有效性。
设计原则的提炼：Karamcheti等人的研究系统总结了VLM设计的关键决策，指出单阶段训练、融合DINOv2与SigLIP视觉特征、与纯语言数据协同训练是高效策略。基于此开发的 Prismatic VLM 在性能上超越了LLaVA-1.5。

3. 功能拓展与专业增强

部分模型在通用架构基础上，着重增强了如视觉定位、视频理解等特定能力。

Qwen-VL 系列：
- Qwen-VL：通过位置感知的交叉注意力适配器和专门设计的边界框输入/输出接口，实现了强大的视觉定位和图像文本交错理解能力。
- Qwen2-VL：引入 2D RoPE 和 M-RoPE，增强了对不同分辨率图像和视频的时空理解。
- Qwen2.5-VL：将动态分辨率扩展到时间域，并优化时间对齐，实现了长视频理解、精准物体定位和稳健文档解析等增强能力。

4. 面向具身应用的VLM

一些模型被明确设计为构建视觉-语言-行动模型的基石。

PaliGemma：一个基于SigLIP和Gemma的3B轻量级VLM，其设计重点在于可迁移性，并被后续多个VLA模型（如 π₀ 系列）选为主干网络。

5. 能力前沿：闭源模型

当前，VLM的能力天花板由闭源商业模型定义，它们展示了全方位的强大性能。

GPT-4o：以其原生多模态交互能力（如实时图像生成）著称。
Gemini 2.5 Pro：则以其卓越的复杂推理能力闻名，并支持超长上下文。

总结：VLM的发展呈现出从复杂专用架构到高效通用设计，再到针对性功能增强的清晰路径。开源社区的努力降低了技术门槛并明确了设计原则，而闭源模型则不断突破能力边界。这些强大的VLM不仅是多模态研究的关键成果，更是构建下一代具身智能体不可或缺的核心组件。

4.4 具身 VLA 模型：从数字AI到具身AI的范式跃迁

当前的基础模型是“数字AI”，而下一步必然的演进方向是“具身AI”。但这不是一个简单的技术平移，而是一个在目标雄心和技术复杂度上都实现巨大跃迁的过程。

图 4: 一个展示关键人工智能领域之间相互关系的维恩图。VLA 模型与数字 AI、硬件和机器人技术相交，代表着具身人工智能的核心子领域，也是向通用人工智能发展过程中的关键领域。

具身AI远比数字AI困难的两个原因：

1. 环境挑战：物理世界的无限开放性

数字AI的挑战：主要面对的是“分布外”或“对抗性”的数据，问题域相对封闭。
具身AI的挑战：物理世界本质上是开放和不可控的。即使是最“常规”的环境也充满不确定性。
- 例子：自由的人类对话指令、意外的干扰（如一只猫走过）、动态变化的环境（倒下的椅子、杂乱的房间）、普遍的遮挡等。
- 自动驾驶的类比：作者将自动驾驶视为具身AI的一个子集，并指出其已经极其困难。而一个通用的具身智能体需要处理数量级更多、更复杂的情况。

2. 硬件挑战：智能必须拥有身体

根本区别：数字AI是纯软件，而具身AI必须与物理硬件（机器人）深度集成。
当前硬件的局限：
- 灵巧性不足：机械臂和“手”的灵活度远逊于人类，严重依赖简单的夹爪。
- 形态单一与隔离：机器人形态多样且互不兼容，缺乏统一平台。
- 感知缺失：缺乏像人类皮肤一样灵敏、全覆盖的触觉传感器。
核心洞察：由于硬件无法在短期内完美，因此模型、数据和硬件必须协同进化，这是一个螺旋上升的过程。

五、动作标记概述

VLA 模型的研究聚焦于处理视觉和语言输入以生成动作输出，并利用基础模型。我们观察到，在设计 VLA 架构和制定训练策略时，VLA 模块和动作标记的概念自然涌现。为了将原始感知映射到动作，VLA 模型必须有效理解场景和指令，将指令置于场景中，规划当前子任务，预判后续动作，并生成可执行动作。具身任务的复杂性和通用性进一步要求这些能力之间的切换、重复和递归。为了促进与任务相关的信息流动和细化，VLAs 将这些能力分配给不同的模块，管理各自的生成过程，并逻辑地连接这些模块及其生成过程以得出最终动作。因此，生成格式的设计和这些模块的训练策略是 VLA 的核心。本综述从这一视角回顾了现有研究。

我们将 VLA（视觉-语言-行动模型）中的最大可微子网络和非可微函数单元称为“VLA 模块”，它们的生成物称为“行动标记”。此外，VLA 模块中具有语义意义的中间生成物也被视为“行动标记”。这一名称“行动标记”不仅表明这些生成物封装了与行动相关的信息，也与 LLMs（大型语言模型）中“语言标记”的命名惯例相一致。实际上，VLAs 中的行动标记是 LLMs 中语言标记的泛化对应物。

为了进一步阐明这些概念，图 1 展示了几个具有代表性的例子。对于当前环境中的给定语言指令，Hi Robot [24] 采用微调的 PaliGemma 模型来预测下一个子任务（以自然语言形式）。随后，一个 VLA 模型（训练方式类似于 π0 [22]）生成低级机器人指令。在这种情况下，微调的 PaliGemma 和定制的 π0 都构成 VLA 模块，而中间语言计划和生成的原始动作则作为动作标记。另一个例子是 VoxPoser [16]，它同样首先使用 LLMs 将语言指令分解为子任务。然后，它利用 LLMs 和 VLMs 根据当前场景为解决每个子任务生成可供性图，最后调用运动规划模块将可供性图转换为原始动作。在此，LLMs、VLMs 和运动规划算法均作为 VLA 模块运行，而语言计划、可供性地图和原始动作则代表相应的动作标记。

其他 VLA 模型也可以通过识别其组成的 VLA 模块和动作标记，根据这一框架进行分析。基于对现有文献的广泛调研，我们观察到大多数 VLA 模型遵循一个统一的抽象框架，如图图 1 所示：视觉和语言输入通过一系列 VLA 模块迭代处理，产生一系列动作标记，这些标记逐步编码更具体、可执行的操作指导，最终生成可执行的动作。这种抽象提供了一个统一的视角，用于解释和比较不同的 VLA 架构。

表 1: 每种动作标记的关键优势、局限性和实证结果概述。

由于视觉-语言-动作模型（VLA）利用基础模型来开发 VLA 模块和动作标记，这些底层模型本身的多样性导致了动作标记格式的多样性。现有的 VLA 研究主要调查了八种主要的动作标记类型：语言描述、代码、可供性、轨迹、目标状态、潜在表示、原始动作和推理。在图 2 中，我们可视化了这些动作标记的常见格式，采用了说明性任务：“准备茶”。这种可视化表明，对于给定的语言指令和观察结果，每种类型的动作标记都以不同的方式编码与任务相关的指导。这些动作标记的正式定义如下。

(1) 语言描述 ( 第 4 节)	一种自然语言表达，用于描述预期的动作序列，范围从高级和抽象的语言计划到低级和具体语言运动。
(2) 代码 ( 第 5)	可执行代码片段或伪代码，要么构成完整的机器人程序，要么指定低级原子操作。
(3) 可供性 ( 第 6）	一种基于空间表示，捕捉物体特定任务和交互相关属性，通常表示为关键点、边界框、分割掩码或可供性图。
(4) 轨迹 ( 第 7)	一种按时间顺序排列的空间状态序列，捕捉物体、末端执行器或场景的动态演变。
(5) 目标状态 ( 第 8)	一种预测的未来观测结果——如图像、点云或视频片段——通过视觉表示预期动作序列的结果，作为规划和执行的中间目标。
(6) 隐式表示 ( 第 9)	一种有目的地预训练的隐式向量序列，在时间间隔内编码与动作相关的信息，通常从大规模数据集中提取。
(7) 原始动作 ( 第 10)	一个或多个机器人可直接执行的底层控制指令。
(8) 推理 ( 第 11)	明确描述导致特定动作标记的决策过程的自然语言表达。

在接下来的章节中，我们系统地按动作标记的类型对 VLA 模型进行分类。对于每一类，我们讨论其采用动机，回顾相关文献，并分析其优缺点，同时强调未来研究方向。每个章节还包括一个总结所调研工作的表格，从多个与相应动作标记相关的维度考察其相似性和差异性。特别是，“前模块”和“后模块”列分别指代动作标记前后 VLA 模块的设计策略，通常反映了在生成和转换标记以实现有效 VLA 模型方面的关键创新和精心设计选择。此外，表 1 提供了每类动作标记的最显著优势、局限性和值得注意的经验结果的总结，便于跨类别进行比较、理解和洞察。

六、语言描述作为动作标记

表 2: 使用语言描述作为动作标记的 VLA 研究概述

在VLA模型中，使用自然语言作为“动作标记”是一种直观且强大的方式，它直接继承了LLM和VLM在理解、推理和规划上的能力。

6.1 概念与层次：语言计划的粒度

受人类“先计划后行动”的思维方式启发，基于语言的行动标记被设计成不同的抽象层次：

高层次：语言计划
- 定义：用一句话描述一个完整的子任务或高级目标。
- 例子：“拿起杯子”、“把杯子放在桌子上”。
- 作用：作为语义锚点，用于任务分解和分配。
细粒度：语言动作
- 定义：描述更接近物理执行的低级动作。
- 例子：“手臂向前移动”、“关闭夹爪”。
- 作用：为低级控制器提供精确、可解释的指导。

6.2 技术演进脉络

1. 开端：证明概念，暴露局限

早期研究：如 SayCan，证明了LLM能够零样本地将高级指令分解为子任务计划。
核心局限：纯文本LLM缺乏感知基础，无法将计划与真实的物理环境对齐。

2. 发展：融入感知，实现落地
为解决上述局限，研究引入了多种 grounding 机制：

显式定位：
- Socratic Models：使用VLM提供视觉上下文。
- SayCan：通过“可供性函数”评估动作的可行性。
- Inner Monologue：引入反馈回路，根据环境信号（如成功检测、人类反馈）动态调整计划。
深度融合：
- PaLM-E：将视觉、状态等信息与语言统一编码，使模型能基于感知直接生成计划。
- EmbodiedGPT 等：采用轻量级、参数高效的策略，降低了训练成本。
超越静态规划：记忆与反思
- BUMBLE 等模型引入了记忆和反思机制，使其能够处理更长时序、更复杂的任务，标志着向更自适应的“智能体”行为转变。

3. 前沿：提升通用性与灵活性

从受限技能到开放执行：早期研究将计划限定在预定义技能内。近期工作如 Hi Robot 和 π₀.₅，将其与通用的底层策略结合，实现了对开放指令和未知环境的处理。
聚焦细粒度动作：RT-H 等研究探索了“语言动作”这一中间层，它促进了不同任务间的数据共享，并使得人类干预和修正变得更加容易。

6.3 核心优势

与基础模型无缝集成：能直接利用LLM/VLM强大的零样本能力，减少特定任务训练。
丰富的协同训练数据：利用网络规模的文本和数据训练，可将丰富的世界知识迁移到VLA模型中。
天然适合长程规划：是处理复杂、长周期任务的近乎必要的手段。
卓越的可解释性与可控性：便于人类理解、监督和干预，从而增强安全性和实现人机协同。

6.4 讨论、局限与未来方向

固有局限：
- 表达能力不足：自然语言在描述需要精确空间、时序或力控的细粒度动作时存在模糊性。
- 延迟问题：大模型的文本生成可能导致较高延迟，不利于实时控制。
未来方向：
- 分层混合架构：最有前景的方向是主要利用语言进行高层规划，然后由使用其他动作标记（如可供性、轨迹、目标状态） 的模型负责高效、精确的低层执行。这结合了语言的抽象能力与其他表示的精确性，是实现可靠、可扩展具身智能的关键路径。

七、代码作为动作标记

表 3: 使用代码作为动作标记的 VLA 研究概述

在VLA模型中，处理复杂的长时序任务需要兼具结构化推理和动态适应能力。传统动作表示（如离散信号或直接指令）往往表达能力不足，而基于代码的动作标记——即可执行的代码片段或伪代码——应运而生，成为一种强大的解决方案。它通过包含条件、循环等控制结构，能直接调用机器人API，生成模块化、逻辑清晰的行为，有效支持分层规划和反应式控制。

7.1 核心优势：为何选择代码？

代码作为一种动作标记，具有独特优势：

结构化的逻辑表达：能清晰地定义条件分支和循环，适合复杂任务规划。
强大的生态集成：可直接利用庞大的第三方库（如NumPy）进行空间推理等复杂计算。
透明的接口桥梁：在高级指令和底层机器人原语之间建立了可理解、可验证的连接。
与LLM能力契合：代码是LLM的原生输出之一，使其能自然地将自然语言和视觉输入转化为结构化代码。

7.2 技术演进：从基础框架到深度融合

1. 开创性工作：奠定基础

Code as Policies：首次利用LLM将语言指令映射为Python代码。其核心在于能集成第三方库进行复杂计算，并通过感知模块的引导泛化到新物体，展现出强大的模块化和适应性。
ProgPrompt：通过有限状态机（FSM）框架和程序化提示（如导入声明、自然语言注释、断言验证）来指导LLM生成代码，使系统能明确定义子任务转换并适应动态环境。

2. 近期进展：增强推理与现实 grounding

用于机器人的ChatGPT：探索了多种提示策略，并强调人工验证反馈回路对于确保代码质量和安全性的重要性。
Instruct2Act：为编码LLM配备了专用的多模态基础模型（如用于分割和分类的VLM），将感知任务卸载，从而生成更精确、基础更扎实的策略代码。
RoboCodeX：引入 “思维树”框架，深度融合视觉、语言和物理线索，通过在多模态数据集上微调来增强推理能力，实现更准确的代码生成。

3. 面向复杂与长时序任务

Text2Motion：利用LLM生成定义任务成功的目标状态，并结合采样搜索与贪婪搜索的混合规划器，以应对长时序任务规划。
RoboScript：通过统一的代码生成管道，标准化输入并集成多种感知和运动规划工具，提升了代码在不同机器人平台间的灵活性和适应性。

7.3 核心挑战与固有脆弱性

尽管优势显著，基于代码的方法面临两大核心挑战：

表达能力的根本性限制：其能力完全受限于预定义API库的丰富程度。当环境出现API无法描述的 novel 情况（如“湿滑表面”）时，系统无法生成或执行相应的细致行为，限制了其在开放世界中的适应与探索能力。
执行中的脆弱性与安全风险：这源于 “符号接地问题” 。即便代码逻辑完美，当现实世界违反了API的预设前提（如假设物体表面干燥），执行也会失败，甚至导致硬件损坏。这种对抽象符号与现实感知之间映射的依赖，带来了显著的安全风险。

7.4 未来方向

构建全面的API函数库：开发集成了多模态感知、推理模块和鲁棒动作原语的丰富、模块化API库，为LLM生成复杂任务代码提供可靠的结构化接口。
集成形式化验证：在整个代码生命周期（生成前、生成后、运行时）引入形式化方法（如静态分析、模型检查、运行时监控）来验证代码的安全性、一致性和前提条件，增强系统的鲁棒性。
利用可解释性促进人机协作：代码的透明性支持交互式调试和协作式改进，使人类能够理解、干预并迭代优化机器人的决策逻辑，这对于构建可信、可控的机器人智能体至关重要。

八、可供性作为行动标记

表 4: 使用可供性作为动作标记的 VLA 研究概述

在VLA范式中，可供性 指的是环境提供给智能体的可行动的可能性（如“可抓取”、“可放置”）。作为动作标记，它充当了视觉感知与物理交互之间的结构化、空间化的桥梁。

8.1 核心价值与基本形式

为何使用可供性？

空间推理：利用基础模型的能力识别可行动区域并评估物理可行性。
平台泛化：通过抽象具体控制机制，使同一高级指令能跨不同机器人执行。
任务聚焦：明确编码与任务相关的交互信息，在面向物体的操作中特别有效。

四种主要表现形式（从精确到粗略，从稀疏到密集）：

关键点：精确的交互锚点（如抓取点）。
边界框：粗糙的物体级定位。
分割掩码：像素级的细粒度区域。
可供性图：密集的、分级适宜性评分的热力图。

8.2 四种可供性标记的深度解析

1. 关键点：追求精确交互

定义：表示精确的接触位置和方向 k=[x, d]。
应用与演进：
- 基础定位：如 KITE、RoboPoint 直接预测关键点以指导技能执行。
- 增强鲁棒性：CoPa 引入从粗到细的定位流程；KUDA 使用关键点构建成本函数来指导两级控制器优化。
- 结构化推理：OmniManip 将关键点置于功能空间中进行推理，并引入自我纠正循环。
- 时序扩展：Magma 和 VidBot 将静态关键点扩展为时间序列，能预测动作如何随时间展开，成为连接空间可供性与轨迹的桥梁。

2. 边界框：实现高效粗略定位

定义：2D框 B={(x_tl, y_tl), (x_br, y_br)} 或3D框的八个角点。
优势：计算简单、高效鲁棒。
应用：
- 作为指代接口：如 DexGraspVLA，利用开放词汇检测器将语言指令锚定到物体，再转换为掩码进行跟踪。
- 支持交互推理：如 A3VLM，利用边界框、运动轴和语义标签的三元组来建模物体运动，并可直接转化为机器人动作。

3. 分割掩码：提供像素级细节

定义：二进制矩阵 M∈{0,1}^{H×W}，精确勾勒物体轮廓。
优势：捕捉细粒度几何信息，适用于接触丰富的操作。
应用：
- 结构化表示：SoFar 利用掩码构建以物体为中心的场景图，指导功能方向预测。
- 时序锚定：ROCKET-1 使用 SAM 2 提取并跟踪分割序列，作为动态环境中的持久视觉提示，支持连贯操作。

4. 可供性图：编码密集空间场

定义：空间场 A∈ℝ^{H×W}，每个像素/体素代表执行特定动作的适宜性分数。
优势：具有先验交互意识，支持复杂的空间推理。
应用：
- 指令条件生成：CLIPort、IGANet 根据语言输入生成可供性图。
- 零样本合成：VoxPoser 通过LLM生成代码，再通过VLM落地为3D价值图，用于零样本轨迹合成。
- 接触推理：ManiFoundation 进一步拓展，利用力和运动热图表示以接触为中心的可供性，预测接触点、施力和预期运动。

8.3 当前局限与未来方向

面临的共同挑战：

维度局限：多数模型依赖2D图像，难以充分捕捉复杂3D几何关系。
静态属性：当前可供性主要编码静态属性，未能对交互过程中可供性的动态变化进行建模。
环境脆弱性：容易受到遮挡、运动模糊等视觉扰动的负面影响。

三大未来方向：

学习真实的3D可供性：超越2D投影，直接在 NeRF、3D高斯溅射 等原始3D表示中学习可供性，以应对复杂遮挡和非刚性物体操作。
建模时序可供性动态：让模型能够预测动作如何改变物体的可供性状态（如从“可打开”变为“可倾倒”），这对于长时序任务至关重要。
增强策略的鲁棒性与不确定性感知：通过高级数据增强技术提高对视觉扰动的鲁棒性，并让策略能够输出概率性可供性，量化自身的不确定性，从而在部署中更安全、可靠。

九、轨迹作为动作标记

表 5: 使用轨迹作为动作标记的 VLA 研究概述。 “格式” 列将动作标记分为三种类型：点轨迹，表示几个关键点的路径；视觉轨迹，表示直接绘制在图像上的路径；光流，表示所有像素的运动。T𝑇T 斜体_T 是时间跨度，K𝐾K 斜体_K 是点的数量，(H,W)𝐻𝑊(H,W)(斜体_H , 斜体_W ) 是图像分辨率

轨迹作为一种动作标记，核心在于对运动路径进行显式编码。它弥合了高级指令与低级控制之间的鸿沟，为机器人提供了关于“如何移动”的明确时空指导。

9.1 轨迹的三种表现形式

根据抽象层次和信息密度的不同，轨迹标记主要分为三种形式：

点轨迹
- 定义：编码为一系列离散的点 P ∈ ℝ^(T×K×2)，表示在时间 T 内 K 个关键点的路径。
- 特点：数值精确、目标明确。
- 应用：
  - 自动驾驶：在鸟瞰图空间中预测未来车辆航点。
  - 机器人操作：生成末端执行器或物体在图像平面内的二维坐标路径。
视觉轨迹
- 定义：将预期路径直接渲染到像素空间，输出为新图像或视频 I ∈ ℝ^(T×H×W×3)，其中运动被可视化。
- 特点：高度可解释，能直观展示动作在视觉环境中的样子。
- 应用：将点序列叠加到观测帧上，或生成呈现可见曲线的视频流。
光流
- 定义：提供最密集的表示，形式化为一个运动场 V ∈ ℝ^(H×W×2)，描述帧间每个像素的运动。
- 特点：捕捉整体场景动态，能隐式建模复杂的多对象交互。
- 应用：通过对整体场景运动进行编码，为控制提供信号。

9.2 技术进展与研究脉络

1. 解决数据稀缺问题
轨迹标记的核心优势之一是利用丰富的跨领域视频数据进行学习。

AVDC：使用在演示视频上训练的扩散模型预测未来帧，并利用光流指导控制。缺点是计算成本高且易产生幻觉。
ATM：通过预测任意点的轨迹，仅需少量本领域数据即可训练低级策略，缓解了数据依赖问题。
Im2Flow2Act：从人类视频中学习生成视频轨迹，并在模拟器中训练策略，完全无需真实机器人数据。
FLIP：构建了一个包含动力学、动作和价值模块的世界模型，通过采样更密集的流点进行规划，在低级控制中表现出色。

2. 强大的泛化能力
轨迹空间中的共同运动模式能实现跨任务泛化。

RT-Trajectory：通过2D/2.5D末端执行器轨迹编码任务，并以此条件化策略，在未见过的任务上表现优异。
HAMSTER：采用分层架构，由VLM合成2D轨迹，再由基于3D观测的低级策略执行，便于在大型跨域数据集上微调，提升了视觉和语义泛化能力。

3. 大规模预训练
研究者探索在以轨迹为中心的大规模数据上预训练通用模型。

LLARVA：通过指令微调构建统一的机器人LLM，将2D轨迹和动作输出为文本，展现出控制模式的灵活性。
ARM4R：引入三阶段训练范式，其4D轨迹表示在性能上超越了LLARVA和ATM。
Magma：基于异构数据集（包含UI和机器人轨迹）训练，获得了超越仅用机器人数据训练模型的时空推理能力。

9.3 轨迹数据的来源与构建

可用于训练的数据源多样且丰富：

互联网视觉语言数据集：为策略注入常识。
人类与机器人演示视频：提供具体的可操作知识。
自动轨迹提取：
- 点跟踪工具：如 CoTracker, TAPIR。
- 光流方法：如 RAFT。
- 状态提取：从机器人演示中直接提取末端执行器状态生成2.5D轨迹。
自动生成：在自动驾驶等领域，可结合轨迹预测与VLM驱动管道自动生成轨迹和字幕。

9.4 当前挑战与未来方向

1. 三维空间理解的局限

问题：多数工作使用2D轨迹，缺乏明确的3D信息，导致歧义并限制在非平面任务中的应用。
现有方案：许多模型（如AVDC, RT-Trajectory）通过融合深度信息来缓解。
根本挑战：点轨迹通常仅编码位置，遗漏了关键的朝向信息，不适用于复杂的灵巧操作。
未来方向：探索整合完整6D姿态（位置+朝向） 的轨迹表示。

2. 计算效率的挑战

问题：生成模型（预测轨迹/视频）和大型VLM（预测稀疏航点）均存在计算成本高或输出频率低的问题，难以实现平滑控制。
现有方案：
- 使用传统规划器将稀疏航点转化为高频控制。
- 一次性预测完整轨迹，并配合时间对齐模块执行。
未来方向：开发轻量级且表达能力强的轨迹生成模型。

3. 任务适用性的边界

优势领域：轨迹擅长定义精确运动路径的任务（如表面擦拭、导航）。
劣势领域：
- 部分观测环境中无法提前规划完整路径。
- 缺乏语义丰富性，无法处理复杂交互逻辑。
- 不能内在地捕捉力控或物体可供性等概念。
未来方向：创建混合动作标记，将轨迹与语义概念（如“抓取”、“增加力”）相结合，以处理更广泛、更复杂的任务。

十、目标状态作为动作标记

表 6: 使用目标状态作为动作标记的视觉-语言-动作研究概述

受人类在行动前会进行“心理模拟”的启发，VLA模型领域开始利用预测的目标状态——即任务预期结果的视觉表示——作为关键的动作标记。这相当于让机器人在执行前先“想象”一下目标画面，从而弥合高级指令与低级动作之间的鸿沟。

10.1 核心架构与两种类型

采用目标状态作为标记的模型通常采用分层架构：

高级模型（通常是生成模型，如DiT或CVAE）：根据当前观察和语言指令，合成目标状态（图像或视频）。
低级模型（如扩散策略或MLP）：以生成的目标状态为条件，将其转化为最终的动作序列。

根据时间维度，目标状态可分为两类：

1. 单帧图像目标状态

形式：2D RGB图像、2.5D RGB-D图像或3D点云。
核心优势与演进：
- 数据可扩展性：如 LangLfP 所示，可通过后见之明重标记技术，从原始机器人数据流中自动生成海量带标注的数据集，绕过人工标注瓶颈。
- 完整分层模型：如 SuSIE 和 CoTDiffusion，构建了完整的高级目标生成与低级动作解码的扩散架构，其中CoTDiffusion还引入了自省机制来评估任务进度。
- 利用无动作视频：如 CoT-VLA，利用无动作的人类视频训练目标生成器，其高低级模型均为自回归VLM。
- 3D几何增强：如 3D-VLA，使用RGB-D图像和点云，提供更精确、感知更丰富的目标描述。

2. 多帧视频目标状态

形式：短视频序列。
核心价值：提供时序上下文，明确“如何操作”，降低执行模糊性，提供更细粒度的运动信息。
技术路径：
- 从大规模数据生成：如 UniPi，使用互联网规模数据生成文本条件视频，再通过逆动力学模型推导出动作。
- 提取隐含动作线索：如 AVDC，从合成的未来视频帧中提取密集光流，以此指导低级策略。
- 增强泛化与鲁棒性：
  - Gen2Act 和 FLIP 通过生成人类执行的目标视频，减少对机器人特定数据的依赖，增强了跨平台泛化能力。
  - GEVRM 引入状态对齐损失，提升对外部扰动的鲁棒性。
- 处理长时序任务：
  - 方法一（分解）：如 Gen2Act，直接利用LLM将长任务分解为短子任务。
  - 方法二（规划）：如 VLP 和 FLIP，生成并评估多个候选目标视频（使用VLM或语言图像评估模型），通过类似束搜索的算法选择最优长期策略。

10.2 目标状态的显著优势

卓越的数据可扩展性：通过后见之明重标记，能从任何轨迹数据中自动生成训练数据。
广泛的训练数据源：生成器可以利用大规模无动作视频（如人类视频）学习世界动态。
强大的跨平台泛化：使用人类视频进行训练，能有效促进知识向不同机器人平台的迁移。
增强的任务特异性：高精度的视觉信息为低级策略提供了清晰、无歧义的指导。
出色的可解释性：“白盒”的生成过程使人类易于理解、调试和干预。
便捷的评估能力：可利用现成的语言图像评估模型来评估目标状态与指令的一致性。

10.3 固有局限与未来方向

尽管优势突出，目标状态方法也存在固有挑战：

生成质量的挑战：
- 过度指定：生成的目标包含过多不必要细节，限制了策略的灵活性。VPP 通过仅执行一次去噪生成粗粒度目标来缓解此问题。
- 不准确：生成的目标物理上不可能或与指令不符，直接导致任务失败。
高昂的计算开销与延迟：生成高质量图像/视频计算量大，导致推理速度慢（如AVDC需10秒生成8帧），难以实现实时控制。

未来方向：