首个VLA性能优化设计发展综述，解锁具身智能落地关键

最新推荐文章于 2025-12-02 17:47:59 发布

原创最新推荐文章于 2025-12-02 17:47:59 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

当机器人接到任务指令时，它需要经历看懂场景、理解语言、规划动作这些步骤，这背后的核心技术，正是VLA模型技术。但长期以来，VLA模型陷入了“能力与效率”的两难：想让机器人懂更多、做更复杂的任务，就得用大模型进行繁重的计算，可边缘设备的算力有限，因此难以部署这些笨重的大模型。

近期来自中科院自动化所、国科大等机构团队发表了一篇题为《Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey》的综述，这是首个专门聚焦“高效VLA”的系统性研究的项目。它不仅理清了VLA模型的发展脉络，更从模型架构、感知特征、动作生成、训练推理四大维度出发，给出了让机器人“更高效”的完整解决方案。今天就让小编来深度解读这篇干货满满的综述，看看高效VLA如何破局落地。

要理解“高效”的重要性，得先回顾VLA模型的发展。因为VLA模型的进化始终围绕“泛化能力”与“推理效率”进行博弈，它大致分可以为三个阶段：

阶段1：早期探索，奠定理论基础

这一阶段的代表是RT-1和Diffusion Policy。研究者首次尝试用Transformer或扩散模型，直接把RGB图像和文字指令映射成机器人动作，证明了端到端控制的可行性。但问题很明显：模型小、数据少，只能在固定场景做特定任务。

阶段2：VLM整合，架构雏形显现

这一阶段转折点来自RT-2的出现。它首次将预训练的视觉-语言模型（VLM）作为骨干，把互联网上的图像、文字知识“迁移”到机器人控制中。随后OpenVLA进一步标准化了架构：用SigLIP/DINO-v2做视觉编码，LLaMA-7B做语言推理，把动作转换成和语言共享词汇的“动作token”。这一阶段，Octo、GR系列等模型不断涌现，Open X-Embodiment等大规模机器人数据集也提供了数据支撑。但这些模型都很“笨重”，比如OpenVLA有7B参数，在强GPU上推理速度也只有5Hz，边缘设备根本扛不住。

阶段3：架构收敛与性能优化

现在的VLA架构逐渐收敛，以 $\pi^0$ 为代表：在这类架构中，其一般流程如下图所示，预训练大语言模型通常会整合视觉、语言与机器人状态信息，负责高层规划与意图理解，并生成抽象的规划或策略表示；该表示随后会被传入专用的动作专家模块，通过流匹配等机制对规划进行优化，生成平滑、精准的连续动作。这种设计让控制精度更高，但模型规模和推理速度的矛盾也到了临界点—— $\pi^0$ 有3B参数，推理约10Hz，放到移动机械臂上仍“力不从心”。

▲图1｜典型的VLA架构

正是这种"模型规模庞大和计算资源有限"的矛盾冲突，推动了现在对高效VLA模型研究的激增，其研究内容旨在保障模型精确的前提下缩减模型参数规模、提升推理速度。高效VLA算法的发展轨迹下图所示:

▲图2｜高效VLA算法的发展轨迹

该综述将高效VLA的优化策略，归纳为“模型架构、感知特征、动作生成、训练推理”四大维度，每一个维度都对应着落地的关键痛点。

1. 模型架构优化

架构是效率的根基。传统VLA用“大模型通吃一切”，而高效架构的核心是“按需分配计算资源”，主要有三种优化思路：

（1）骨干网络选择轻量型小模型

早期RT-2的参数规模达到了550亿，推理速度只有3Hz，完全无法满足实时性需求。并且经过实验证明，RT-2的延迟主要来源于语言模型，因此，采用轻量级语言模型或效率导向的语言模型设计成为主流优化策略。例如：

典型方法	说明
RoboMamba	用2.7B参数的Mamba架构替代大LLM，推理更快且性能损失小
SmolVLA	直接用0.24B-2.25B参数的SmolVLM-2，还剪掉最后几层Transformer，参数规模骤减
TinyVLA	用1.3B参数的Pythia小模型，在压缩整体模型规模的同时保留核心任务能力，使边缘部署更具可行性

这种方法简单直接，但缺点是“压缩模型能力的有上限”，面对复杂场景任务很可能力不从心。

（2）动态调整推理路径

这种研究思路则是在训练阶段保留大规模骨干网络，在推理阶段引入动态路径选择机制。通过这种方式，模型既能保留大规模架构的表达能力，又能在特定任务场景中剔除冗余计算，从而在不过度损失能力的前提下提升效率。比如：

典型方法	说明
DEER-VLA	在 VLA 系统中引入提前退出（early-exit）机制，即在LLM的中间层加了多个轻量级“策略头”，如果中间层的输出已经能准确预测动作，就提前退出，不往下计算
MoLE-VLA	把LLM的每一层都当成潜在“专家”，并采用混合专家（Mixture-of-Experts, MoE）框架，用一个“门控”机制判断当前任务需要哪些专家参与，不需要的专家就歇着
EfficientVLA	计算每一层输入和输出的余弦相似度，如果相似度高（表明该层的表征转换作用有限），推理时就直接跳过这层

这种方法兼顾了“大模型的能力”和“小模型的效率”，但需要额外设计动态选择机制，实现起来稍复杂。

（3）双系统设计

▲图3｜双系统VLA框架示意图，多模态大语言模型（慢系统）+ 轻量级动作模型（快系统）

这种策略通常采用异构模型架构，将模型分为"慢系统"与"快系统", 慢系统使用大规模多模态语言模型，以满足语义理解与推理需求；快系统则采用轻量级模型，实现对感知输入的快速响应。两个系统通过隐式token或嵌入向量交换信息，协同完成任务。例如：

▲图4｜已知的双系统的模型

（4）对模型架构选择的总结

策略类型	原理	优势	劣势
静态模型骨干网络	以轻量级模型替代大规模预训练VLM骨干，通过缩减参数规模降低计算与存储开销	直接高效，无需额外设计动态模块；核心任务能力保留较好，边缘部署可行性高	过度压缩会降低模型能力上限，泛化性能受损，难以适配未训练的新场景、新任务
动态计算路径	训练时保留大架构以维持表达能力，推理时通过规则/指标动态选择有效计算层/路径	平衡模型能力与效率，避免冗余计算；需完整能力时可调用全架构，适配不同复杂度任务	需额外设计分支模块，增加训练开销；路径选择的标准、阈值依赖人工调试，缺乏自动化
双系统架构	受认知科学双系统理论启发，拆分“慢系统（大模型）”与“快系统（轻模型）”分层协作	兼顾复杂推理与快速响应：慢系统处理规划，快系统生成动作，适配多场景任务需求	多采用异步执行，双系统输出存在时间差，易影响实时决策，不适用于高频率控制场景

2. 感知特征优化

VLA模型的输入里头，视觉占了“大头”，一张高分辨率图片会生成成千上万个token，大部分是背景和无关的物体，纯属浪费计算。高效感知的核心就是剪掉冗余信息，让输入的视觉信息和任务紧凑相关，为此在感知特征优化的策略有2种：

（1）单帧筛选

▲图5｜VLA系统中的Token剪枝流程，在正向推理过程中，会依据重要性指标对视觉Token进行评分，随后剪枝掉信息含量较低的Token，以减少计算量。

直白点说就是对输入的一帧token进行剪枝，通过各种指标判断视觉token中哪些部分对任务重要，然后留下它们，对于不重要的部分就直接删掉。比如：

▲图6｜已知的不同类型的VLA token剪枝策略

（2）时序复用

▲图7｜VLA中的时序复用图例说明，包括：图像块复用（patch reuse）、键值缓存复用（KV-cache reuse）、高层推理结果复用（high-level reasoning reuse）、时序复用还会在扩散模型动作推理的迭代去噪过程中自然产生。

机器人做任务时，相邻帧的场景变化很小（比如机械臂移动1厘米，大部分画面其实没啥变化）。如果将之前时间步中计算过的重复的特征复用进来，就可以极大的减少计算量，一般的时序复用策略包括：图像块复用、键值缓存复用、高层推理结果复用、另外对于扩散模型动作推理的迭代去噪过程中也使用了时序复用。

类型	案例	说明
图像块复用	VLA-cache	通过评估帧间图像块级别的相似度，对判定为静态的图像块复用其键值缓存
键值缓存复用	TTF-VLA	该方法不直接复用Transformer状态，而是维护图像块token的历史记录，并通过一个二进制重要性掩码对其进行更新，此掩码可识别视觉或语义发生显著变化的区域
高层推理结果复用	FlashVLA	该方法引入一个轻量级触发器，既检测连续感知驱动状态的相似度，也检测所选视觉token 的重叠度。当这些条件满足时，模型会复用先前计算的表征，在确保一致性的同时避免冗余计算
高层推理结果复用	Fast ECoT	若未检测到显著变化，系统会复用之前基于文本的规划。通过缓存计算成本高但变化缓慢的推理结果，并结合连续批处理等现代加速技术
扩散模型动作推理的迭代去噪过程：重复去噪生成多步动作	EfficientVLA	该方法采用固定间隔缓存策略：每N步重新计算一次特征，间隔期间则复用缓存的表征

3. 动作生成优化

动作是机器人和真实世界进行闭环交互的接口，承担着将高层语义推理转化为底层控制指令的桥梁作用。因此，动作表征方式与生成策略的选择，对控制精度、响应延迟以及长时程复杂任务中的整体执行效率具有重要影响。

（1）原始动作

VLA常见设计就是直接输出7-Dof的原始动作(3维平移、3维旋转、1维夹爪状态(比如：开、合))。这种“一步一预测”的方式，虽然推理延迟很小，但是很容易积累误差导致实际执行轨迹偏离预期路径，并且输入1个很长的token，结果只预测1步动作，那效率很低下。因此，现在主流的做法变成“一次预测多步动作”，即动作分块机制（Action Chunck)，在单次推理步骤中生成一组连续动作块, 例如下图：

▲图8｜动作分块机制示意图，单次正向推理可生成多个时间步的动作以提升效率

（2）基于感知推理的动作生成

上述方案仅聚焦低级别动作生成，未能结合具体任务场景开展推理。因此，在长时程任务中，这类方案不仅可解释性较弱，跨任务泛化能力也存在明显不足。为解决这些缺陷，一种融入感知推理的替代范式应运而生，该范式在生成最终动作前增设推理阶段，通过一系列典型推理步骤优化决策逻辑，以此为后续动作生成提供更贴合场景需求的决策依据。其具体如下图所示：

▲图9｜融入推理机制的 VLA 模型。这类模型除生成原始动作外，还会输出中间推理结果。文本推理结果可能包括任务列表、高层规划与详细执行步骤，视觉推理结果可能涉及目标状态、边界框或功能可能性等。这些推理结果可以帮助后续动作生成提供更贴合场景需求的决策依据

下标总结了现有的不同类型的基于推理的动作生成策略：

4. 训练推理优化

光优化模型结构还不够，VLA系统的效率还取决于如何简化训练流程与加速推理过程。

（1）训练优化

训练大VLA模型成本极高，高效训练可以减少资源依赖，降低成本，一些优化训练的手段：

方法	说明
参数高效微调（PEFT）	不用全量微调大模型，只需在模型里插几个“小模块”（如LoRA的低秩矩阵）来训练，参数减少几个数量级
知识蒸馏	让“小模型学大模型”，比如CEED-VLA用大模型的输出指导小模型训练，小模型能达到大模型90%的性能，但参数只有1/10
量化剪枝	把模型的参数“压缩存储”，BitVLA把参数量化到1位，内存从15.1GB降到1.4GB，推理速度还更快

（2）推理优化

传统VLA模型通常采用自回归(AR)解码范式，按顺序生成输出令牌。这种方法实现简单且训练效率高，但固有的序列依赖性会造成严重的计算瓶颈。为解决这一局限，近期研究都开始探索非自回归(NAR)或并行解码范式,如下图所示：

▲图10｜VLA模型中的解码机制。（a）和（b）分别展示基于自回归和扩散去噪的主流方法；（c）和（d）呈现用于提升推理效率的近期设计，包括雅可比解码（Jacobi decoding）与投机解码（speculative decoding）。

方法	案例	说明
投机解码	Spec-VLA	用一个轻量级“草稿模型”先快速生成候选动作序列，再让大模型“一次性检查”这个序列对不对，对就用，不对再修正，相当于先写草稿再修改，比逐字写快得多
雅可比解码	PD-VLA	借鉴雅可比迭代思想，先并行预测所有动作，再通过多轮迭代优化直至收敛。