吉大&哈佛最新！Agentic Robot：具身智能体中VLA模型的类脑框架-优快云博客

点击下方卡片，关注“具身智能之心”公众号

作者丨Zhejian Yang等

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

出发点与工作背景

长时程机器人操作对自主系统提出了重大挑战，需要在复杂的序列任务中进行持续推理、精确执行和强大的错误恢复。当前方法，无论是基于静态规划还是端到端视觉运动策略，都存在错误累积问题，且在执行过程中缺乏有效的验证机制，限制了它们在现实场景中的可靠性。这里提出Agentic Robot，一个受大脑启发的框架，通过标准化动作流程（SAP）解决这些限制：SAP是一种新的协调协议，用于管理操作任务中组件之间的交互。受人类组织中标准化操作流程（SOP）的启发，SAP为规划、执行和验证阶段建立了结构化工作流程。架构包括三个专门组件：（1）一个大型推理模型，将高级指令分解为语义连贯的子目标；（2）一个视觉-语言-动作执行器，从实时视觉输入生成连续控制命令；（3）一个时间验证器，通过内省评估实现自主推进和错误恢复。这种SAP驱动的闭环设计支持动态自我验证，无需外部监督。在LIBERO基准测试中，Agentic Robot取得了最先进的性能，平均成功率为79.6%，在长时程任务上比SpatialVLA高6.1%，比OpenVLA高7.4%。这些结果表明，专门组件之间由SAP驱动的协调提高了序列操作的性能和可解释性，为可靠的自主系统提供了巨大潜力。

项目Github：https://agentic-robot.github.io。

Agentic Robot框架：受大脑启发的控制循环

框架概述

Agentic Robot是一个智能体框架，受生物认知和多智能体LLM系统的启发，将长时程操作重新定义为一个封闭的感知-推理-执行-验证循环。从管理有效人类工作流程的SOP中汲取灵感，这里提出了SAP，一种新型协调协议，在操作过程中构建组件交互。SAP建立了信息交换、进度监控和错误恢复的明确协议，实现复杂操作任务的稳健执行。

架构集成了三个专门组件：（1）基于LRM的规划器，将高级指令分解为结构化子目标；（2）基于VLA的执行器，从子目标和视觉输入生成连续控制动作；（3）基于VLM的验证器，进行自我评估以实现自主推进或恢复。每个组件都在SAP框架内运行，遵循标准化接口和通信协议，确保任务执行过程中的无缝协调。

如图1所示，智能体处理来自第三人称和第一人称相机的任务描述和RGB观察。规划器按照SAP规范生成子目标，VLA模型根据视觉输入将其转换为7自由度动作。同时，验证器监控时间帧缓冲区，根据SAP验证协议确定子目标完成情况，成功则进入下一个子目标，失败则触发标准化恢复动作。该架构实现了一系列智能体步骤，每个步骤在SAP框架内结合意图接地、视觉运动执行和基于感知的验证，无需外部监督即可实现执行校正。

规划器：用于子目标生成的LRM

规划器模块P是我们SAP框架内的高级推理组件。它按照标准化分解协议将任务指令T转换为结构化的可执行子目标序列：

其中表示初始视觉观察。每个子目标形成一个完整且受约束的指令，源自原子技能库，该库定义了标准化动作模板，如：

拿起[物体] | 将[物体]放在[位置]上 | 打开/关闭[设备]

这种受约束的方法确保与执行器的兼容性，同时保持执行管道的可解释性，遵循SAP结构化组件交互的原则。

这里使用最先进的大型多模态推理模型（如GPT4o）实现规划器，该模型处理指令T和可选的图像以进行视觉接地。符合SAP的提示架构包括三个结构化组件：（1）任务前言，解释规划器在框架中的角色；（2）完整的原子技能库，指定允许的动作类型；（3）精心选择的少样本示例，演示正确的子目标分解。这些示例指导模型建立适当的任务边界，解决歧义，并将复杂指令分解为2-5个原子步骤。通过广泛验证，我们确定具有1-2个语义单元（如动词+对象或动词+对象+位置）的子目标在SAP框架内实现了清晰度和可执行性之间的最佳平衡。

VLA执行器：反应式视觉运动策略

执行器模块E是核心的视觉运动接口，根据SAP执行协议将每个子目标和相关的视觉观察转换为连续的低级控制信号：

其中表示机器人的笛卡尔位移和夹持器配置。前六个维度编码平移和旋转向量，最后一个组件表示二进制夹持器状态。

利用OpenVLA，在自然语言子目标和视觉观察之间建立直接连接。该架构包含一个大型语言模型主干和一个视觉Transformer（ViT），用于处理多模态输入并生成适当的电机命令。每个子目标遵循我们原子技能库中概述的结构化格式，使VLA模型能够通过理解语言指令和视觉场景内容来系统地生成动作。这种结构化方法增强了跨操作场景的兼容性和可解释性，同时将动作空间限制为物理上可行的轨迹。

尽管执行器采用无状态设计，但它通过SAP验证循环集成了强大的错误处理能力。当执行失败发生时，标准化验证机制通过视觉评估检测问题，并按照SAP协议触发特定的恢复动作。如果多次恢复尝试失败，框架会将任务标记为失败并停止执行，以防止不安全行为。这种闭环错误检测代表了对开环方法的重大改进，即使在单个子目标执行遇到失败时，也能通过复杂的操作序列实现自主推进。

验证器：基于感知的子目标评估和恢复

验证器模块V通过视觉分析评估每个子目标的成功与否，在SAP框架内提供关键反馈。对于每个验证步骤，它遵循两阶段评估协议产生二进制响应：

其中是来自第三人称和腕部安装视图的最近图像对的滑动缓冲区。这个时间缓冲区捕获视觉动态，如目标位移或接触转换，通常(K=2)，帧间隔为5。

采用Qwen2.5-VL-3B-Instruct作为验证器模型，评估子目标是否完成。验证提示遵循SAP的结构化格式：“基于图像序列，机器人是否成功完成[子目标]？”该模型在注释三元组的数据集上使用LoRA进行微调，其中。

当初始响应为时，验证器执行二次检查以确定机器人是否卡住：

其中是一个诊断模块，检测诸如手臂静止、抓取失败或振荡行为等情况。如果，则触发恢复动作：

如抬起夹持器或重新定位手腕。然后系统重新执行，并在下一个间隔恢复相同的两阶段验证过程。经过次不成功的恢复尝试后，任务被标记为失败。

为了优化响应性和效率，每20帧（即）执行一次验证，实现接近最佳的准确性（仅比10帧间隔下降1.2%），同时将计算负载减少48%。与单遍目标检查方法相比，我们的两级验证器允许执行中期校正和细粒度故障定位。

SAP：协调智能体控制的标准化动作流程

SAP通过构建感知、规划、执行和验证之间的交互，在Agentic Robot框架内协调闭环执行。SAP支持子目标级反馈和自适应恢复，将复杂的长时程操作转换为有界的智能体步骤。时间t的每个SAP周期将智能体步骤定义为：

其中表示第一人称和第三人称视图，是当前子目标，是采取的动作，是验证结果。SAP执行遵循四个相互依赖的阶段：

多模态感知。在每个时间步，智能体收集：

提供工作空间的双视角观察。

反应式执行。执行器将子目标转换为低级控制信号：

其中将语义目标和当前视觉映射到7自由度动作。

时间验证。每帧（通常为20），验证器执行两阶段评估：如果，智能体进入下一个子目标。如果不是，且，则触发恢复动作。

目标恢复。需要恢复时，调用特定的校正策略：然后重新执行并重复验证。经过次失败的恢复尝试后，任务安全终止。

SAP执行由异步有限状态机管理，具有特定于组件的频率：执行器以10 Hz（）运行，验证器以0.5 Hz（）运行。通过使用模块化边界和分层反馈强制执行结构化控制周期，SAP提高了智能体的可靠性和可解释性。它支持现场校正，隔离错误，并确保安全恢复：解决了动态和不确定操作环境中开环或端到端系统的核心限制。

实验分析

讨论与局限性

作为鲁棒性机制的验证

框架的一个核心贡献是引入视觉验证作为子目标推进的控制信号。验证器充当语义守门人，决定是继续、重试还是终止，从而实现子目标级别的错误检测和纠正，而无需访问真实状态信息。实验结果证明了这种方法在缓解错误累积方面的有效性，尤其是在长周期任务中，早期的错误可能会波及后续的动作序列。恢复行为的加入进一步增强了系统在环境不确定性和部分可观测性下的弹性。

实际部署挑战

尽管我们的结果在高保真模拟环境中得到了验证，但将Agentic Robot转移到物理平台仍面临若干挑战。这些挑战包括处理RGB输入中的传感器噪声、适应现实世界的光照变化和遮挡，以及补偿执行延迟。此外，验证器对视觉领域偏移的鲁棒性需要进行广泛评估。未来的工作将纳入领域自适应和仿真到现实的迁移技术，特别关注验证器和执行器组件的真实图像微调，以应对这些挑战。

自适应验证调度

目前，验证是按固定间隔（每20帧）进行的，与任务复杂性、执行速度或物体动态无关。尽管在评估中有效，但这种启发式方法在计算效率上可能不是最优的。我们建议探索自适应验证策略，这些策略可以基于运动强度、子目标类型或LLM的不确定性量化，利用置信度感知调度。这种方法将优化计算资源分配，同时保持任务安全性和正确性保证。

参考

[1] Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents

论文辅导计划

具身智能干货社区

具身智能之心知识星球是国内首个具身智能开发者社区，也是最专业最大的交流平台，近1500人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、VLA、VLN、具身大脑、具身小脑、大模型、视觉语言模型、强化学习、Diffusion Policy、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近30+学习路线、40+开源项目、近60+具身智能相关数据集。

全栈技术交流群

具身智能之心是国内首个面向具身智能领域的开发者社区，聚焦大模型、视觉语言导航、VLA、机械臂抓取、Diffusion Policy、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向，目前近60+技术交流群，欢迎加入！扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）。