视觉-语言-动作模型的综述：从一个动作 token 化的视角（上）-优快云博客

25年7月来自北大和北大-灵初智能（Psibot）联合实验室的论文“A Survey on Vision-Language-Action Models: An Action Tokenization Perspective”。

视觉和语言基础模型在多模态理解、推理和生成方面的显著进步，激发了人们将此类智能扩展到物理世界的日益增长的热情，从而推动了视觉-语言-动作 (VLA) 模型的蓬勃发展。尽管方法看似各异，但当前的 VLA 模型可以统一在一个框架下：视觉和语言输入由一系列 VLA 模块处理，生成一系列动作 tokens，这些 tokens 逐步编码更扎实、更可操作的信息，最终生成可执行的动作。进一步确定，区分 VLA 模型的主要设计选择在于动作 tokens 的表达方式，动作 tokens 可以分为语言描述、代码、affordance、轨迹、目标状态、潜表征、原始动作和推理。然而，目前对动作 token 的理解仍然不足，这严重阻碍了 VLA 的有效开发，并模糊了未来的发展方向。因此，本研究旨在通过动作 token 化的视角对现有的 VLA 研究进行分类和解读，提炼每种 token 类型的优势和局限性，并找出需要改进的领域。通过系统的回顾和分析，对 VLA 模型的更广泛演进进行了综合展望，重点介绍了一些尚未深入探索但前景光明的方向，并为未来的研究提供了指导，希望使该领域更接近通用智能。

VLA 模型的快速发展、令人鼓舞的实证结果以及日益多样化，迫切需要进行及时且系统的综述，以指导未来的研究。看似迥异的架构之间所蕴含的共性进一步凸显了这一需求。现有的 VLA 模型通常可以抽象成一个统一的框架：视觉和语言输入通过一系列 VLA 模块进行迭代处理，生成一系列动作 token，这些 token 逐渐编码出信息量越来越大且可操作的指导，最终生成可执行的动作。正式地，VLA 模块定义为 VLA 模型中支持端到端梯度流的最大可微子网络，或不可微的功能单元，例如运动规划。如果多个神经组件连接并联合优化，则它们被视为同一模块的一部分。按照 VLM 中语言和图像 token 的命名约定，将 VLA 模块的输出称为动作 tokens。此外将 VLA 模块中语义上有意义的中间表征（例如通过专门的预训练 [18] 和目标图像 [33] 构建的潜表征）视为动作token。如图展示了几个代表性 VLA 中 VLA 模块和动作tokens的实例，重点介绍了如何用提出的框架统一地查看、解释和理解它们。从这个角度来看，VLA 模型主要以动作 token 的制定和组织方式来区分。这些标记可分为八种类型：语言描述 [24, 31]、代码 [15, 34]、affordance [16, 35]、轨迹 [36, 37]、目标状态 [38, 33]、潜表征 [39, 18]、原始动作 [21, 22] 和推理 [40, 41]。

请添加图片描述

如图所示使用单个具身任务可视化它们的常见形式。至关重要的是，动作 token 的设计几乎影响了 VLA 模型的方方面面，包括基础模型的选择、数据需求、训练和推理效率、可解释性、可扩展性以及跨任务和环境的适用性。因此，动作 token 化是 VLA 模型设计的核心，需要深入理解。

请添加图片描述

基础模型的快速发展正日益激发人们的想象力，并推动着人们对通用人工智能 (AGI) 的追求。由于当前的基础模型主要在数字领域运行，代表着数字人工智能 (Digital AI)，研究人员自然而然地将注意力转向具身人工智能 (embodied AI)，其目标是开发能够在物理世界中遵循人类指令的通用智体。然而，具身人工智能比数字人工智能展现出更大胆的目标，原因如下。

从根本上说，具身人工智能必须解决的问题引入了数字人工智能所不具备的全新形式的开放性和挑战。

虽然棘手的数字案例可能涉及分布式外 (OOD) AGI 或对抗性输入，但物理世界本质上是非结构化的，即使是常规环境也可能极具挑战性。流畅的数字人对话、无意干预、倒下的椅子、杂乱的 AI 房间以及遮挡都是常见的例子，更不用说更棘手的情况了。一个类似且更为常见的问题，即自动驾驶，在本文中也将其视为具身人工智能的一部分。虽然自动驾驶本身已经极其困难，但物理世界中的通用具身智能必须处理更多数量级的情况，从而带来更大数量级的挑战和困难。这对模型和数据都提出了巨大的要求，以支持强大的具身人工智能。

此外，一个关键的认识是，具身人工智能也涉及对机器人硬件的要求，而数字人工智能则不具备。为了实现通用的具身智能，硬件平台必须具备执行一般任务所需的灵活性和稳健性，而这一水平目前还远远达不到。代表性的差距包括：灵巧手和机械臂远未达到人类的灵活性；严重依赖抓手；具身的多样性和孤立性；以及缺乏灵敏的、全覆盖的触觉传感器。由于硬件无法在短时间内达到完美，因此合理的预期是模型、数据和硬件将协同发展，最终实现通用智能。本综述主要关注模型和数据方面，但也会介绍硬件挑战，这些挑战通常是模型开发的重要考虑因素。

鉴于具身人工智能对通用视觉和语言能力的需求，一种自然的策略是在基础模型的基础上构建并赋予其行动能力。这一方向催生了 VLA 模型，该模型现已成为研究的核心课题。VLA 位于数字人工智能、机器人技术和硬件的交叉领域，是具身人工智能的核心子领域，也是追求通用人工智能 (AGI) 的关键领域（如图所示）。

请添加图片描述

迄今为止已发表的数百篇 VLA 论文表明，这是一个快速发展的领域（如图所示），展现出早期但有限的智能化和泛化迹象。本综述将从动作token化 (action tokenization) 的角度系统地回顾和分析这些论文，以概述其研究前景。尽管近期取得了一些进展，但大多数评估仍然局限于简化的实验室环境——主要基于抓取器的操作——因此远未达到日常环境中对通用具身智能体的要求。因此，该领域尚处于起步阶段，仍需取得实质性进展。因此，在可预见的未来，具身VLA模型的持续发展仍将是下一个研究前沿。

请添加图片描述

VLA 模型的研究侧重于利用基础模型处理视觉和语言输入以生成动作输出。在设计 VLA 架构和制定训练策略时，VLA 模块和动作 token 的概念自然而然地出现。为了将原始感知映射到动作，VLA 模型必须有效地理解场景和指令，将指令融入场景，规划当前子任务，预测后续动作，并生成可执行动作。具体化任务的复杂性和普遍性进一步要求这些能力的切换、重复和递归。为了促进与任务相关的信息流动和细化，VLA 将这些能力委托给不同的模块，管理它们各自的生成，并将这些模块及其生成进行逻辑链接以得出最终动作。因此，这些模块的生成格式和训练策略的设计是 VLA 的核心。

将 VLA 中最大可微子网络和不可微功能单元称为“VLA 模块”，并将其生成单元称为“动作 token”。此外，VLA 模块中语义上有意义的中间生成也被视为“动作 token”。“动作 token”这一名称不仅表明这些生成包含与动作相关的信息，也符合 LLM 中“语言 token”的命名约定。事实上，VLA 中的动作 token是 LLM 中语言 token的广义对应物。

对于当前环境中的给定语言指令，Hi Robot [24] 使用经过微调的 PaliGemma 模型来预测自然语言中的下一个子任务。随后，使用 VLA 模型（以类似于 𝜋0 [22] 的方式训练）生成低级机器人命令。在这种情况下，经过微调的 PaliGemma 和自定义的 𝜋0 都构成了 VLA 模块，而中间语言规划和生成的原始动作则充当动作 token。另一个例子是 VoxPoser [16]，它也首先使用 LLM 将语言指令分解为子任务。然后，它使用 LLM 和 VLM 基于当前场景生成用于解决每个子任务的 affordance 图，最后调用运动规划模块将 affordance 图转换为原始动作。在这里，LLM、VLM 和运动规划算法都充当 VLA 模块，而语言规划、affordance 图和原始动作则代表相应的动作 tokens。

动作 tokens 的正式定义如下。
(1) 语言描述：描述预期动作序列的自然语言表达，范围从高级抽象的语言规划到低级具体的语言动作。
(2) 代码：构成完整机器人程序或指定低级原子操作的可执行代码片段或伪代码。
(3) affordance：一种基于空间的表征，用于捕捉物体特定于任务和交互相关的属性，通常表示为关键点、边框、分割掩码或 affordance 图。
(4) 轨迹：按时间顺序排列的空间状态序列，用于捕捉物体、末端执行器或场景的动态演变。
(5) 目标状态：对未来观察结果的预测，例如图像、点云或视频片段，以可视化的方式表示预期动作序列的预期结果，作为规划和执行的中间目标。
(6) 潜表征：一种经过专门预训练的潜向量序列，用于编码特定时间间隔内的动作相关信息，通常从大规模数据集中提取。
(7) 原始动作：一个或多个可由机器人直接执行的低级控制命令。
(8) 推理：明确描述导致特定动作 token 决策过程的自然语言表达。

下表总结了每种动作 token 最显著的优势、局限性和值得注意的经验结果，有助于跨类别进行比较、理解和洞察。

请添加图片描述

语言

如图所示：使用语言描述作为动作 token 的 VLA 研究概述。

请添加图片描述

使用语言描述作为动作 token 的主要优势在于它们可以与大型基础模型无缝集成。LLM 和 VLM 在理解、推理和规划方面都拥有强大的开箱即用能力，这使得零样本规划成为可能，并显著减少了针对特定任务进行训练的需求。它们还可以直接受益于上下文学习、记忆、解码策略和搜索技术的持续进步。即使需要进行微调，语言描述与模型原生输出空间之间的一致性也能使整个过程比其他形式的动作 token 更高效、更少干扰，而其他形式的动作 token 通常会存在更大的模态失配问题。

其次，语言描述受益于丰富的协同训练数据。PaLM-E [14] 和 𝜋0.5 [125] 的实证结果表明，使用此类数据进行协同训练可以将丰富的世界知识迁移到 VLA 模型中，从而提升泛化能力。

第三，语言描述尤其适用于长期规划。事实上，如果 VLA 模型要执行复杂且时间扩展的任务，语言描述几乎必不可少。

最后，语言描述的可解释性有助于人类的监督和干预，从而增强安全性、透明度和可控性。Hi Robot [24] 和 YAY Robot [152] 等系统就体现了基于语言的规划如何实现人机交互校正和动态反馈的无缝集成。此外，通过在线人机交互收集的校正数据可以用来迭代地提升模型性能 [31]。

使用语言描述作为动作 token 的一个局限性在于其表达能力的不完善。虽然自然语言灵活且易于解释，但它本质上具有歧义性，通常不足以指定细粒度的控制行为——尤其是在接触丰富或可变形的操作任务中[153, 154]，这些任务中精确的空间和时间细节至关重要。这些问题可能导致系统组件之间的通信错误和任务基础不充分，这两者都会阻碍整体性能。

另一个限制是延迟。生成高质量的语言描述通常依赖于大规模模型，这可能会导致推理延迟，并限制其在动态或实时场景中的适用性。潜在的补救措施包括采用推理加速技术以及开发异步规划和执行框架。

抛开这些局限性，一个颇具前景的研究方向是主要利用语言描述进行高级规划——将复杂任务分解为更简单的子问题，然后利用 VLA 模型更有效地解决这些子问题，这些模型可以利用其他动作 token 格式，例如affordance、轨迹或目标状态。这些表征为低级执行提供了更高的精度和效率，从而实现更可靠、更可扩展的具身智能。

代码

基于代码的动作 token VLA 如表所示概述：

请添加图片描述

尽管基于代码的动作token具有诸多优势，但它们也面临着一些重大的实际限制。它们的表达能力本质上受限于预定义感知和控制 API 库的功能 [15]。当机器人遇到高度动态、模糊或先前未观察的环境时，预先设定的 API 可能不足以准确捕捉或表达所需的新行为。因此，系统在复杂的开放世界环境中的适应性和探索能力 [34] 受到限制。例如，如果 API 没有提供“光滑表面”或“易碎物体”等环境特征的抽象，即使是编写完美的代码也难以生成此类场景所需的细致动作。

这种对刚性符号表示的依赖也会导致执行的脆弱性。机器人策略不仅容易受到 LLM 内部生成错误的影响（例如，生成逻辑上不一致或效率低下的代码）；更重要的是，当现实世界的环境状态违反 API 预设的前提条件时，它们也会失效。这是符号接地问题的核心表现——代码中的抽象符号无法可靠地映射到复杂的现实世界感知。例如，一段控制机械臂抓取的代码可能会假设物体表面始终干燥平坦。如果实际物体潮湿或形状不规则，即使代码语法正确，也可能导致抓取失败、物体损坏，甚至硬件损坏。这种固有的脆弱性直接转化为巨大的安全风险，因为看似无害的代码命令可能在不可预见的情况下引发严重事故。

未来工作的一个有前景的方向是开发全面的 API 函数库，以充分释放基于代码动作token的潜力。这样的框架应该集成丰富的模块化功能，包括多模态感知 API（例如，目标检测和跟踪）、推理模块（例如，空间关系分析）以及鲁棒的动作原语。通过提供结构化且可靠的接口，该框架将使 VLM 能够充当高级协调器，生成由这些原语组成的可执行代码，以解决现实世界中复杂且长期的任务。

第二个未来方向是将形式化验证集成到代码的整个生命周期中，以增强鲁棒性。这包括验证 API 库的一致性和安全性，以及开发动态验证 LLM 生成代码的方法。逻辑推理和约束满足可以指导安全的代码生成，而静态分析和模型检查则可以在部署之前捕获错误或证明其安全性。最后，运行时监控可以确保满足 API 的先决条件，并在发生异常时触发安全关闭或恢复。

另一个前沿领域是利用代码的可解释性来实现有效的人机协作。与黑盒模型不同，代码的透明性使人类能够理解并干预机器人的逻辑。这支持两种关键范式：交互式调试（可实时追踪和修复故障）和协作改进（人类以迭代方式指导程序改进）。这种人机交互系统对于开发不仅功能强大，而且值得信赖且可控的机器人代理至关重要。

Affordance

在下表总结 Affordance 的动作 token 上努力。对于像厨房清洁这样接触密集的任务，表征的选择至关重要。关键点提供精准的目标，非常适合精确定位碗的边缘，以便抓取或按下洗碗机的小按钮。边框提供更简单、更粗略的定位，足以满足一般物体选择的需求。对于需要细粒度交互的操作，例如擦拭碗的不规则内部，分割掩码更胜一筹，因为它们能够捕捉物体的精确轮廓。affordance 图提供了对交互可能性的密集、场景级理解。它们同时突出显示所有可抓取或可擦拭的区域，从而能够跨多个物体进行更复杂的空间推理。最终，affordance 表征的选择涉及交互精度、计算复杂度和任务需求之间的根本权衡。

请添加图片描述

尽管基于 affordance 的动作 token 具有诸多优势，但它们仍面临一些限制，这些限制阻碍了其在现实世界操控中的有效性。首先，大多数 VLA 模型依赖于二维图像表示，这不足以捕捉精确控制所需的三维几何形状和空间关系。尽管 A3VLM [162] 和 SoFar [163] 等模型融合了部分三维信息，但它们在涉及复杂物体形状和遮挡的任务，以及动态（例如，将组件插入移动的组件中）或精细（例如，细粒度的零件组装）操作中常见的场景中仍然存在不足。其次，affordance token通常编码静态物体属性，例如“可抓握的手柄”或“可关闭的门”，而没有对这些 affordance 如何随时间演变进行建模。这些限制削弱了它们在需要对变化的 affordance 状态进行持续推理的接触密集型任务中的有效性。最后，affordance 表示容易受到遮挡和运动模糊等视觉扰动的影响。具体来说，关键点在遮挡下会显著降低性能，并且分割掩码在视觉挑战场景中会降低准确性，从而影响操作性能。

为了应对这些挑战，确定了三个有前景的研究方向。
学习真正的 3D affordance。下一步的关键是超越 2D 或投影 3D，直接在原生 3D 表示中学习 affordance。通过将策略建立在神经辐射场（NerF） [187]、3D 高斯溅射（GS） [188] 或显式网格等结构上，模型可以对物体的几何形状、自由空间和遮挡形成整体理解。这种方法将为目前无法实现的复杂任务提供强大的推理能力，例如将零件插入隐藏的空腔或在杂乱的环境中操纵非刚性物体。
建模时域 affordance 动态。未来的模型应该学习预测动作如何随时间改变物体的 affordance。例如，模型应该推断执行“掀开盖子”操作会将 affordance 状态从“可打开”转换为“可倾倒”。这种时间推理对于实现长期规划以及成功完成接触丰富的连续任务至关重要。
增强策略鲁棒性和不确定性感知。现实世界的部署需要能够抵御视觉模糊性并意识到自身局限性的策略。这需要双重关注。应该使用高级数据增强等技术来训练模型，使其对视觉干扰具有更高的鲁棒性。策略应该通过输出概率 affordance 来量化自身的不确定性。