当机器人接到任务指令时,它需要经历看懂场景、理解语言、规划动作这些步骤,这背后的核心技术,正是VLA模型技术。但长期以来,VLA模型陷入了“能力与效率”的两难:想让机器人懂更多、做更复杂的任务,就得用大模型进行繁重的计算,可边缘设备的算力有限,因此难以部署这些笨重的大模型。
近期来自中科院自动化所、国科大等机构团队发表了一篇题为《Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey》的综述,这是首个专门聚焦“高效VLA”的系统性研究的项目。它不仅理清了VLA模型的发展脉络,更从模型架构、感知特征、动作生成、训练推理四大维度出发,给出了让机器人“更高效”的完整解决方案。今天就让小编来深度解读这篇干货满满的综述,看看高效VLA如何破局落地。

要理解“高效”的重要性,得先回顾VLA模型的发展。因为VLA模型的进化始终围绕“泛化能力”与“推理效率”进行博弈,它大致分可以为三个阶段:
阶段1:早期探索,奠定理论基础
这一阶段的代表是RT-1和Diffusion Policy。研究者首次尝试用Transformer或扩散模型,直接把RGB图像和文字指令映射成机器人动作,证明了端到端控制的可行性。但问题很明显:模型小、数据少,只能在固定场景做特定任务。
阶段2:VLM整合,架构雏形显现
这一阶段转折点来自RT-2的出现。它首次将预训练的视觉-语言模型(VLM)作为骨干,把互联网上的图像、文字知识“迁移”到机器人控制中。随后OpenVLA进一步标准化了架构:用SigLIP/DINO-v2做视觉编码,LLaMA-7B做语言推理,把动作转换成和语言共享词汇的“动作token”。这一阶段,Octo、GR系列等模型不断涌现,Open X-Embodiment等大规模机器人数据集也提供了数据支撑。但这些模型都很“笨重”,比如OpenVLA有7B参数,在强GPU上推理速度也只有5Hz,边缘设备根本扛不住。
阶段3:架构收敛与性能优化
现在的VLA架构逐渐收敛,以为代表:在这类架构中,其一般流程如下图所示,预训练大语言模型通常会整合视觉、语言与机器人状态信息,负责高层规划与意图理解,并生成抽象的规划或策略表示;该表示随后会被传入专用的动作专家模块,通过流匹配等机制对规划进行优化,生成平滑、精准的连续动作。这种设计让控制精度更高,但模型规模和推理速度的矛盾也到了临界点——
有3B参数,推理约10Hz,放到移动机械臂上仍“力不从心”。

▲图1|典型的VLA架构
正是这种"模型规模庞大和计算资源有限"的矛盾冲突,推动了现在对高效VLA模型研究的激增,其研究内容旨在保障模型精确的前提下缩减模型参数规模、提升推理速度。高效VLA算法的发展轨迹下图所示:

▲图2|高效VLA算法的发展轨迹

该综述将高效VLA的优化策略,归纳为“模型架构、感知特征、动作生成、训练推理”四大维度,每一个维度都对应着落地的关键痛点。
1. 模型架构优化
架构是效率的根基。传统VLA用“大模型通吃一切”,而高效架构的核心是“按需分配计算资源”,主要有三种优化思路:
(1)骨干网络选择轻量型小模型
早期RT-2的参数规模达到了550亿,推理速度只有3Hz,完全无法满足实时性需求。并且经过实验证明,RT-2的延迟主要来源于语言模型,因此,采用轻量级语言模型或效率导向的语言模型设计成为主流优化策略。例如:
|
典型方法 |
说明 |
|
RoboMamba |
用2.7B参数的Mamba架构替代大LLM,推理更快且性能损失小 |
|
SmolVLA |
直接用0.24B-2.25B参数的SmolVLM-2,还剪掉最后几层Transformer,参数规模骤减 |
|
TinyVLA |
用1.3B参数的Pythia小模型,在压缩整体模型规模的同时保留核心任务能力,使边缘部署更具可行性 |
这种方法简单直接,但缺点是“压缩模型能力的有上限”,面对复杂场景任务很可能力不从心。
(2)动态调整推理路径
这种研究思路则是在训练阶段保留大规模骨干网络,在推理阶段引入动态路径选择机制。通过这种方式,模型既能保留大规模架构的表达能力,又能在特定任务场景中剔除冗余计算,从而在不过度损失能力的前提下提升效率。比如:
|
典型方法 |
说明 |
|
DEER-VLA |
在 VLA 系统中引入提前退出(early-exit)机制,即在LLM的中间层加了多个轻量级“策略头”,如果中间层的输出已经能准确预测动作,就提前退出,不往下计算 |
|
MoLE-VLA |
把LLM的每一层都当成潜在“专家”,并采用混合专家(Mixture-of-Experts, MoE)框架,用一个“门控”机制判断当前任务需要哪些专家参与,不需要的专家就歇着 |
|
EfficientVLA |
计算每一层输入和输出的余弦相似度,如果相似度高(表明该层的表征转换作用有限),推理时就直接跳过这层 |
这种方法兼顾了“大模型的能力”和“小模型的效率”,但需要额外设计动态选择机制,实现起来稍复杂。
(3)双系统设计

▲图3|双系统VLA框架示意图,多模态大语言模型(慢系统)+ 轻量级动作模型(快系统)
这种策略通常采用异构模型架构,将模型分为"慢系统"与"快系统", 慢系统使用大规模多模态语言模型,以满足语义理解与推理需求;快系统则采用轻量级模型,实现对感知输入的快速响应。两个系统通过隐式token或嵌入向量交换信息,协同完成任务。例如:

▲图4|已知的双系统的模型
(4)对模型架构选择的总结
|
策略类型 |
原理 |
优势 |
劣势 |
|
静态模型骨干网络 |
以轻量级模型替代大规模预训练VLM骨干,通过缩减参数规模降低计算与存储开销 |
直接高效,无需额外设计动态模块;核心任务能力保留较好,边缘部署可行性高 |
过度压缩会降低模型能力上限,泛化性能受损,难以适配未训练的新场景、新任务 |
|
动态计算路径 |
训练时保留大架构以维持表达能力,推理时通过规则/指标动态选择有效计算层/路径 |
平衡模型能力与效率,避免冗余计算;需完整能力时可调用全架构,适配不同复杂度任务 |
需额外设计分支模块,增加训练开销;路径选择的标准、阈值依赖人工调试,缺乏自动化 |
|
双系统架构 |
受认知科学双系统理论启发,拆分“慢系统(大模型)”与“快系统(轻模型)”分层协作 |
兼顾复杂推理与快速响应:慢系统处理规划,快系统生成动作,适配多场景任务需求 |
多采用异步执行,双系统输出存在时间差,易影响实时决策,不适用于高频率控制场景 |
2. 感知特征优化
VLA模型的输入里头,视觉占了“大头”,一张高分辨率图片会生成成千上万个token,大部分是背景和无关的物体,纯属浪费计算。高效感知的核心就是剪掉冗余信息,让输入的视觉信息和任务紧凑相关,为此在感知特征优化的策略有2种:
(1)单帧筛选

▲图5|VLA系统中的Token剪枝流程,在正向推理过程中,会依据重要性指标对视觉Token进行评分,随后剪枝掉信息含量较低的Token,以减少计算量。
直白点说就是对输入的一帧token进行剪枝,通过各种指标判断视觉token中哪些部分对任务重要,然后留下它们,对于不重要的部分就直接删掉。比如:

▲图6|已知的不同类型的VLA token剪枝策略
(2)时序复用

▲图7|VLA中的时序复用图例说明,包括:图像块复用(patch reuse)、键值缓存复用(KV-cache reuse)、高层推理结果复用(high-level reasoning reuse)、时序复用还会在扩散模型动作推理的迭代去噪过程中自然产生。
机器人做任务时,相邻帧的场景变化很小(比如机械臂移动1厘米,大部分画面其实没啥变化)。如果将之前时间步中计算过的重复的特征复用进来,就可以极大的减少计算量,一般的时序复用策略包括:图像块复用、键值缓存复用、高层推理结果复用、另外对于扩散模型动作推理的迭代去噪过程中也使用了时序复用。
|
类型 |
案例 |
说明 |
|
图像块复用 |
VLA-cache |
通过评估帧间图像块级别的相似度,对判定为静态的图像块复用其键值缓存 |
|
键值缓存复用 |
TTF-VLA |
该方法不直接复用Transformer状态,而是维护图像块token的历史记录,并通过一个二进制重要性掩码对其进行更新,此掩码可识别视觉或语义发生显著变化的区域 |
|
高层推理结果复用 |
FlashVLA |
该方法引入一个轻量级触发器,既检测连续感知驱动状态的相似度,也检测所选视觉token 的重叠度。当这些条件满足时,模型会复用先前计算的表征,在确保一致性的同时避免冗余计算 |
|
Fast ECoT |
若未检测到显著变化,系统会复用之前基于文本的规划。通过缓存计算成本高但变化缓慢的推理结果,并结合连续批处理等现代加速技术 | |
|
扩散模型动作推理的迭代去噪过程:重复去噪生成多步动作 |
EfficientVLA |
该方法采用固定间隔缓存策略:每N步重新计算一次特征,间隔期间则复用缓存的表征 |
3. 动作生成优化
动作是机器人和真实世界进行闭环交互的接口,承担着将高层语义推理转化为底层控制指令的桥梁作用。因此,动作表征方式与生成策略的选择,对控制精度、响应延迟以及长时程复杂任务中的整体执行效率具有重要影响。
(1)原始动作
VLA常见设计就是直接输出7-Dof的原始动作(3维平移、3维旋转、1维夹爪状态(比如:开、合))。这种“一步一预测”的方式,虽然推理延迟很小,但是很容易积累误差导致实际执行轨迹偏离预期路径,并且输入1个很长的token,结果只预测1步动作,那效率很低下。因此,现在主流的做法变成“一次预测多步动作”,即动作分块机制(Action Chunck),在单次推理步骤中生成一组连续动作块, 例如下图:

▲图8|动作分块机制示意图,单次正向推理可生成多个时间步的动作以提升效率
(2)基于感知推理的动作生成
上述方案仅聚焦低级别动作生成,未能结合具体任务场景开展推理。因此,在长时程任务中,这类方案不仅可解释性较弱,跨任务泛化能力也存在明显不足。为解决这些缺陷,一种融入感知推理的替代范式应运而生,该范式在生成最终动作前增设推理阶段,通过一系列典型推理步骤优化决策逻辑,以此为后续动作生成提供更贴合场景需求的决策依据。其具体如下图所示:

▲图9|融入推理机制的 VLA 模型。这类模型除生成原始动作外,还会输出中间推理结果。文本推理结果可能包括任务列表、高层规划与详细执行步骤,视觉推理结果可能涉及目标状态、边界框或功能可能性等。这些推理结果可以帮助后续动作生成提供更贴合场景需求的决策依据
下标总结了现有的不同类型的基于推理的动作生成策略:

4. 训练推理优化
光优化模型结构还不够,VLA系统的效率还取决于如何简化训练流程与加速推理过程。
(1)训练优化
训练大VLA模型成本极高,高效训练可以减少资源依赖,降低成本,一些优化训练的手段:
|
方法 |
说明 |
|
参数高效微调(PEFT) |
不用全量微调大模型,只需在模型里插几个“小模块”(如LoRA的低秩矩阵)来训练,参数减少几个数量级 |
|
知识蒸馏 |
让“小模型学大模型”,比如CEED-VLA用大模型的输出指导小模型训练,小模型能达到大模型90%的性能,但参数只有1/10 |
|
量化剪枝 |
把模型的参数“压缩存储”,BitVLA把参数量化到1位,内存从15.1GB降到1.4GB,推理速度还更快 |
(2)推理优化
传统VLA模型通常采用自回归(AR)解码范式,按顺序生成输出令牌。这种方法实现简单且训练效率高,但固有的序列依赖性会造成严重的计算瓶颈。为解决这一局限,近期研究都开始探索非自回归(NAR)或并行解码范式,如下图所示:

▲图10|VLA模型中的解码机制。(a)和(b)分别展示基于自回归和扩散去噪的主流方法;(c)和(d)呈现用于提升推理效率的近期设计,包括雅可比解码(Jacobi decoding)与投机解码(speculative decoding)。
|
方法 |
案例 |
说明 |
|
投机解码 |
Spec-VLA |
用一个轻量级“草稿模型”先快速生成候选动作序列,再让大模型“一次性检查”这个序列对不对,对就用,不对再修正,相当于先写草稿再修改,比逐字写快得多 |
|
雅可比解码 |
PD-VLA |
借鉴雅可比迭代思想,先并行预测所有动作,再通过多轮迭代优化直至收敛。 |

未来VLA效率提升的5个“发力点”,这些方向将决定VLA能否真正走进现实:
1. 模型与数据协同优化
(1)当前瓶颈
● 数据低效问题:现有VLA模型依赖“大模型+海量数据”范式,随着数据量呈指数增长,导致冗余样本过多,增加了训练成本。
● 仿真与真实Gap:过度依赖仿真数据会掩盖真实场景样本的关键作用,导致整个学习过程会出现边际效益递减现象,即新增数据的计算成本远超其带来的性能提升。
(2)未来方向
● 构建以数据为中心的效率框架:量化不同数据模态的边际效用,动态调整数据采样频率,优先保留高价值数据。
2. 高效的3D时空感知
(1)当前瓶颈
● 空间局限性:主流VLA依赖2D图像输入,无法处理遮挡、体积关系等3D场景信息,难以满足复杂操作需求。
● 时间短视性:基于“马尔可夫假设”,仅利用当前帧信息,缺乏长期交互的总结,导致长时序任务中决策连贯性不足。
● 效率矛盾:引入3D表征或多视图融合会导致感知tokens爆炸,增加LLM推理的计算量与latency,违背实时控制需求。
(2)未来方向
● 感知3D压缩:仅对“即将交互区域”保留高保真3D几何信息,背景用紧凑隐式描述子表示,减少token数量。
● 时空分层记忆:短期用密集状态跟踪捕捉动态变化,长期用关键帧/事件摘要压缩历史信息,避免无限内存增长。
● 语义引导过滤:利用语言指令或任务先验筛选感知信号,在进入LLM推理前移除冗余信息,降低下游计算负担。
3. 紧凑连续的动作设计
(1)当前瓶颈
● 离散分块局限:现有 “动作分块”(Action Chunk)范式适合低频率任务,高频率任务需更高时间粒度,分块长度增加会导致输出tokens非线性增长,加剧计算。
● 动态连续性差:分块间过渡不平滑,易引发机器人运动突变或执行不稳定。
● 推理-控制冲突:引入链式推理随能提升任务分解能力,但会增加中间tokens生成成本,难以满足几十/几百Hz的实时控制需求。
(2)未来方向
● 分层动作抽象:低层级用反应式运动原语快速响应,高层级用参数化token编码意图,压缩输出带宽。
● 跨分块时序一致性:缓存相邻动作分块的隐状态并复用,确保运动平滑性,避免冗余计算。
● 反应式推理:开发轻量化、按需触发的内部规划模块,在保持可解释性的同时避免过高延迟,最终实现 “推理-控制”的一体化高效流程。
4. 从模仿学习到感知强化自适应
(1)当前瓶颈
● 模仿学习天花板:行为克隆依赖专家演示,模型性能无法超越数据集覆盖范围,难以应对未见过的场景。
● 强化学习低效:RL在物理机器人上样本效率极低,且VLA大模型的参数更新成本高;复杂语言条件任务的奖励信号稀疏/模糊,进一步延缓收敛。
● 虚实迁移损耗:仿真中优化的RL策略在真实场景中因动力学不匹配性能骤降,需额外真实交互微调,增加部署成本。
(2)未来方向
● 渐进式混合训练:先用IL初始化稳定策略,再用离线RL提升泛化性,最后通过安全约束的在线微调适配真实场景,最小化物理交互次数。
● RL效率增强技术:结合模型预测滚动、跨模态上下文经验回放、自适应奖励塑造,提升样本利用率,减少硬件损耗。
5. 效率导向的评估体系
(1)当前瓶颈
● 指标碎片化:现有研究报告的参数规模、latency、任务成功率等指标缺乏统一标准,且硬件平台、数据集差异大,难以横向对比 “真实效率增益”。
● 性能评估片面:仅关注任务成功率,忽视长时序稳定性、故障恢复能力、环境鲁棒性,导致实验室性能与真实部署差距大。
● 可解释性缺失:未评估“动作决策的可理解性”,难以满足人机协作场景中的安全性与可追溯性需求。
(2)未来方向
● 三维评估框架:
○ 资源效率:标准化报告模型参数、推理latency、训练时间、内存占用、能耗,明确硬件配置,确保公平对比。
○ 性能鲁棒性:除成功率外,增加“长时序任务稳定性”“故障恢复率”“分布外场景适应度”等指标。
○ 可解释性:引入人类评估动作合理性、决策归因可视化、动作日志可审计性,奠定安全部署基础。
● 社区协同基准:建立类似ImageNet、、GLUE的开源VLA 基准,提供统一数据集、仿真环境与真实机器人测试协议,推动可复现研究。

这篇综述最核心的价值在于填补了VLA模型研究中“效率优化”探索的系统性空白,为该领域从理论探索走向实际部署提供了关键的梳理、分析与指引。
论文地址:https://arxiv.org/pdf/2510.17111
项目地址(含整理的论文):https://github.com/guanweifan/awesome-efficient-vla
987

被折叠的 条评论
为什么被折叠?



