吉大&哈佛最新!Agentic Robot:具身智能体中VLA模型的类脑框架

点击下方卡片,关注“具身智能之心”公众号

作者丨Zhejian Yang等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文


>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

出发点与工作背景

长时程机器人操作对自主系统提出了重大挑战,需要在复杂的序列任务中进行持续推理、精确执行和强大的错误恢复。当前方法,无论是基于静态规划还是端到端视觉运动策略,都存在错误累积问题,且在执行过程中缺乏有效的验证机制,限制了它们在现实场景中的可靠性。这里提出Agentic Robot,一个受大脑启发的框架,通过标准化动作流程(SAP)解决这些限制:SAP是一种新的协调协议,用于管理操作任务中组件之间的交互。受人类组织中标准化操作流程(SOP)的启发,SAP为规划、执行和验证阶段建立了结构化工作流程。架构包括三个专门组件:(1)一个大型推理模型,将高级指令分解为语义连贯的子目标;(2)一个视觉-语言-动作执行器,从实时视觉输入生成连续控制命令;(3)一个时间验证器,通过内省评估实现自主推进和错误恢复。这种SAP驱动的闭环设计支持动态自我验证,无需外部监督。在LIBERO基准测试中,Agentic Robot取得了最先进的性能,平均成功率为79.6%,在长时程任务上比SpatialVLA高6.1%,比OpenVLA高7.4%。这些结果表明,专门组件之间由SAP驱动的协调提高了序列操作的性能和可解释性,为可靠的自主系统提供了巨大潜力。

项目Github:https://agentic-robot.github.io。

相关工作

基础模型的最新进展显示出创建能够解释自然语言指令并执行复杂操作任务的具身智能体的巨大潜力。这些系统有效地弥合了高级推理和低级物理控制之间的差距。然而,现有的具身操作系统难以在需要长时间协调动作序列的长时程任务上实现可靠性能。现实场景如摆桌、杂货打包或家具组装,不仅需要复杂的推理和精确的运动控制,还需要在长时间任务执行过程中具备强大的错误检测和恢复机制。

通过对当前方法的广泛分析,我们发现了阻碍可靠长时程操作的基本限制。大多数现有方法分为两类,各有严重缺陷:静态遵循计划的智能体生成固定执行序列,缺乏适应性反馈;端到端视觉运动策略将观察直接映射到动作,缺乏中间推理。静态规划器遭受错误传播的影响:执行早期的小偏差会级联成灾难性故障。端到端策略缺乏内省机制,通常无法从意外状态中恢复,尤其是在遇到训练分布之外的场景时。

从人类组织中的标准化操作流程(SOP)中汲取灵感,我们观察到可靠的任务执行需要结构化的协调协议。在自然认知中,复杂行为源于专门的神经回路通过明确定义的交互模式工作:前额叶区域处理规划,运动皮层执行动作,感觉运动环路提供持续的验证反馈。类似地,在人类组织中,SOP建立了清晰的工作流程,最大限度地减少错误并实现不同角色之间的有效协作。这种生物学和组织学的智慧表明,机器人系统可以从管理组件交互的结构化协调协议中受益。

受这些见解的启发,这里设计了Agentic Robot,一个受大脑启发的框架,引入了标准化动作流程(SAP):一种专门为具身操作任务设计的新型协调协议。与管理人类工作流程的SOP不同,SAP将自然认知周期编码为机器人系统的结构化智能体交互。SAP定义了完整的智能体循环,通过定义良好的接口和标准化的信息交换、进度监控和错误恢复协议,管理我们的三个专门组件(规划器、执行器和验证器)在任务执行过程中的协调。此外,Agentic Robot要求智能体在操作过程中保持结构化的交互协议。SAP确保任务分解、动作执行和进度验证遵循一致的流程,显著减少错误累积,同时实现从故障中的强大恢复。更具体地说,所有组件都遵循严格的SAP定义的工作流程,确保信息交接符合既定协议,消除困扰现有系统的通信故障。

主要贡献如下:

  1. 引入Agentic Robot,一个受大脑启发的具身操作智能体框架,融入了结构化协调协议。该框架高度模块化和可解释,具有定义良好的组件接口,使其成为开发可靠长时程操作系统的强大平台。

  2. 提出标准化动作流程(SAP),这是一种新型协调协议,管理机器人操作任务中的完整智能体循环。SAP编码了规划、执行和验证阶段之间的结构化交互,通过标准化工作流管理提高系统可靠性并减少错误传播。

  3. 在LIBERO基准测试中取得了最先进的性能,平均成功率为79.6%。实验结果表明,SAP驱动方法代表了可靠具身操作的有前途的框架,在具有挑战性的长时程任务上有特别强的改进。

Agentic Robot框架:受大脑启发的控制循环

框架概述

Agentic Robot是一个智能体框架,受生物认知和多智能体LLM系统的启发,将长时程操作重新定义为一个封闭的感知-推理-执行-验证循环。从管理有效人类工作流程的SOP中汲取灵感,这里提出了SAP,一种新型协调协议,在操作过程中构建组件交互。SAP建立了信息交换、进度监控和错误恢复的明确协议,实现复杂操作任务的稳健执行。

架构集成了三个专门组件:(1)基于LRM的规划器,将高级指令分解为结构化子目标;(2)基于VLA的执行器,从子目标和视觉输入生成连续控制动作;(3)基于VLM的验证器,进行自我评估以实现自主推进或恢复。每个组件都在SAP框架内运行,遵循标准化接口和通信协议,确保任务执行过程中的无缝协调。

如图1所示,智能体处理来自第三人称和第一人称相机的任务描述和RGB观察。规划器按照SAP规范生成子目标,VLA模型根据视觉输入将其转换为7自由度动作。同时,验证器监控时间帧缓冲区,根据SAP验证协议确定子目标完成情况,成功则进入下一个子目标,失败则触发标准化恢复动作。该架构实现了一系列智能体步骤,每个步骤在SAP框架内结合意图接地、视觉运动执行和基于感知的验证,无需外部监督即可实现执行校正。

规划器:用于子目标生成的LRM

规划器模块P是我们SAP框架内的高级推理组件。它按照标准化分解协议将任务指令T转换为结构化的可执行子目标序列:

其中 表示初始视觉观察。每个子目标 形成一个完整且受约束的指令,源自原子技能库,该库定义了标准化动作模板,如:

拿起[物体] | 将[物体]放在[位置]上 | 打开/关闭[设备]

这种受约束的方法确保与执行器的兼容性,同时保持执行管道的可解释性,遵循SAP结构化组件交互的原则。

这里使用最先进的大型多模态推理模型(如GPT4o)实现规划器,该模型处理指令T和可选的图像 以进行视觉接地。符合SAP的提示架构包括三个结构化组件:(1)任务前言,解释规划器在框架中的角色;(2)完整的原子技能库,指定允许的动作类型;(3)精心选择的少样本示例,演示正确的子目标分解。这些示例指导模型建立适当的任务边界,解决歧义,并将复杂指令分解为2-5个原子步骤。通过广泛验证,我们确定具有1-2个语义单元(如动词+对象或动词+对象+位置)的子目标在SAP框架内实现了清晰度和可执行性之间的最佳平衡。

VLA执行器:反应式视觉运动策略

执行器模块E是核心的视觉运动接口,根据SAP执行协议将每个子目标 和相关的视觉观察 转换为连续的低级控制信号

其中 表示机器人的笛卡尔位移和夹持器配置。前六个维度编码平移和旋转向量,最后一个组件 表示二进制夹持器状态。

利用OpenVLA,在自然语言子目标和视觉观察之间建立直接连接。该架构包含一个大型语言模型主干和一个视觉Transformer(ViT),用于处理多模态输入并生成适当的电机命令。每个子目标遵循我们原子技能库中概述的结构化格式,使VLA模型能够通过理解语言指令和视觉场景内容来系统地生成动作。这种结构化方法增强了跨操作场景的兼容性和可解释性,同时将动作空间限制为物理上可行的轨迹。

尽管执行器采用无状态设计,但它通过SAP验证循环集成了强大的错误处理能力。当执行失败发生时,标准化验证机制通过视觉评估检测问题,并按照SAP协议触发特定的恢复动作。如果多次恢复尝试失败,框架会将任务标记为失败并停止执行,以防止不安全行为。这种闭环错误检测代表了对开环方法的重大改进,即使在单个子目标执行遇到失败时,也能通过复杂的操作序列实现自主推进。

验证器:基于感知的子目标评估和恢复

验证器模块V通过视觉分析评估每个子目标 的成功与否,在SAP框架内提供关键反馈。对于每个验证步骤 ,它遵循两阶段评估协议产生二进制响应:

是或否 其中 是来自第三人称和腕部安装视图的最近图像对的滑动缓冲区。这个时间缓冲区捕获视觉动态,如目标位移或接触转换,通常(K=2),帧间隔为5。

采用Qwen2.5-VL-3B-Instruct作为验证器模型,评估子目标 是否完成。验证提示遵循SAP的结构化格式:“基于图像序列,机器人是否成功完成[子目标]?”该模型在注释三元组 的数据集上使用LoRA进行微调,其中

当初始响应为 时,验证器执行二次检查以确定机器人是否卡住:

卡住或仍在尝试

其中 是一个诊断模块,检测诸如手臂静止、抓取失败或振荡行为等情况。如果 卡住 ,则触发恢复动作:

如抬起夹持器或重新定位手腕。然后系统重新执行 ,并在下一个间隔恢复相同的两阶段验证过程。经过 次不成功的恢复尝试后,任务被标记为失败。

为了优化响应性和效率,每20帧(即 )执行一次验证,实现接近最佳的准确性(仅比10帧间隔下降1.2%),同时将计算负载减少48%。与单遍目标检查方法相比,我们的两级验证器允许执行中期校正和细粒度故障定位。

SAP:协调智能体控制的标准化动作流程

SAP通过构建感知、规划、执行和验证之间的交互,在Agentic Robot框架内协调闭环执行。SAP支持子目标级反馈和自适应恢复,将复杂的长时程操作转换为有界的智能体步骤。时间t的每个SAP周期将智能体步骤定义为:

其中 表示第一人称和第三人称视图, 是当前子目标, 是采取的动作, 是验证结果。SAP执行遵循四个相互依赖的阶段:

多模态感知。在每个时间步,智能体收集:

提供工作空间的双视角观察。

反应式执行。执行器将子目标 转换为低级控制信号:

其中 将语义目标和当前视觉映射到7自由度动作。

时间验证。每 帧(通常为20),验证器执行两阶段评估: 如果 ,智能体进入下一个子目标。如果不是,且 卡住 ,则触发恢复动作。

目标恢复。需要恢复时,调用特定的校正策略: 然后重新执行 并重复验证。经过 次失败的恢复尝试后,任务安全终止。

SAP执行由异步有限状态机 管理,具有特定于组件的频率:执行器以10 Hz( )运行,验证器以0.5 Hz( )运行。通过使用模块化边界和分层反馈强制执行结构化控制周期,SAP提高了智能体的可靠性和可解释性。它支持现场校正,隔离错误,并确保安全恢复:解决了动态和不确定操作环境中开环或端到端系统的核心限制。

实验分析

讨论与局限性

作为鲁棒性机制的验证

框架的一个核心贡献是引入视觉验证作为子目标推进的控制信号。验证器充当语义守门人,决定是继续、重试还是终止,从而实现子目标级别的错误检测和纠正,而无需访问真实状态信息。实验结果证明了这种方法在缓解错误累积方面的有效性,尤其是在长周期任务中,早期的错误可能会波及后续的动作序列。恢复行为的加入进一步增强了系统在环境不确定性和部分可观测性下的弹性。

实际部署挑战

尽管我们的结果在高保真模拟环境中得到了验证,但将Agentic Robot转移到物理平台仍面临若干挑战。这些挑战包括处理RGB输入中的传感器噪声、适应现实世界的光照变化和遮挡,以及补偿执行延迟。此外,验证器对视觉领域偏移的鲁棒性需要进行广泛评估。未来的工作将纳入领域自适应和仿真到现实的迁移技术,特别关注验证器和执行器组件的真实图像微调,以应对这些挑战。

自适应验证调度

目前,验证是按固定间隔(每20帧)进行的,与任务复杂性、执行速度或物体动态无关。尽管在评估中有效,但这种启发式方法在计算效率上可能不是最优的。我们建议探索自适应验证策略,这些策略可以基于运动强度、子目标类型或LLM的不确定性量化,利用置信度感知调度。这种方法将优化计算资源分配,同时保持任务安全性和正确性保证。

参考

[1] Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents

论文辅导计划

具身智能干货社区

具身智能之心知识星球是国内首个具身智能开发者社区,也是最专业最大的交流平台,近1500人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、VLA、VLN、具身大脑、具身小脑、大模型、视觉语言模型、强化学习、Diffusion Policy、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近30+学习路线、40+开源项目、近60+具身智能相关数据集。

全栈技术交流群

具身智能之心是国内首个面向具身智能领域的开发者社区,聚焦大模型、视觉语言导航、VLA、机械臂抓取、Diffusion Policy、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值