新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准

点击下方卡片,关注“具身智能之心”公众号

作者丨SonghaoHan等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文


>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

Ideal
Dynamic
Memory Execution
Memory Exploration
Mix 1
Mix 2

问题背景与动机

近年来,视觉-语言模型(VLM)凭借对图像与文本的强大对齐能力,为机器人带来了“看图执行指令”的全新范式。研究者只需给出一句自然语言命令,机械臂便能在仿真或真实桌面环境中完成抓取、移动、放置等操作。这类系统通常以 VLA 等 “小脑” 模型的形式存在:直接把多模态观测映射到低层控制信号,强调即时反应与传感-运动耦合。然而,随着任务场景从单步抓取扩展到家庭级复合操作,仅靠小脑反应已难以胜任;机器人还需要 “大脑” VLM 进行长期规划、记忆管理与自我反思,并与小脑 Controller 高效协同。

现有公开基准的平均任务长度不足 500 步,也很少显式考察大小脑协作(Planner ↔ Controller)的闭环能力:模型几乎不必记住“刚才把碗放在哪”“柜门是否关闭”等关键上下文,一旦出现遮挡、跌落或目标迁移就容易失效。为系统评估并激发 大小脑协同推理 的潜能,我们提出 RoboCerebra——面向长时序、多扰动、强记忆约束的全新 Benchmark,并配套发布 Hierarchical Planning & Execution (HPE) 参考框架,为社区提供可直接衡量大小脑协同收益的实验基线。

RoboCerebra 的核心贡献包括:

  1. 超长任务序列与动态扰动:平均 2 972 步、最长超 3 500 步的操作轨迹,并在执行过程中植入柜门遮挡、物体跌落与视觉错位等事件,全面挑战模型的规划与恢复能力。

  2. 自顶向下的数据生成流水线:利用 GPT 自动生成高层任务并递归拆分子目标,经符号与视觉双重闭环验证后,再由人工示范精细标注,确保逻辑一致、物理可行且语义准确。

  3. 多维评测协议与大小脑协同基线:设计四维指标(成功率、计划匹配度、计划效率、动作反思准确率)系统考验 VLM-Planner(大脑)与 VLA-Controller(小脑)的分工协作效果,并公开同构评测脚本,保证不同方法可对齐、可复现。

Robocerebra数据集构建流程、任务设定与评测协议

RoboCerebra 既是一个面向长时序机器人操作的大规模数据集,也是一个专为评估 大脑模型推理能力 而构建的系统性基准。为全面覆盖“规划、记忆与反思”三类核心认知挑战,我们在任务构造、场景生成与评测体系上进行了细致设计。整个数据生成流程融合了自动化生成与人工精标环节,并辅以结构化验证机制,确保数据在语义完整性、物理可执行性与标注一致性等方面具备高质量和可扩展性。

1. 任务设定

构建面向长时序操作的评测基准,需覆盖短时任务中难以体现的关键挑战,包括部分可观测性、环境动态变化、长期依赖性与偶发干扰。为此,RoboCerebra 在每条操作轨迹中引入六类具代表性的子任务类型,系统性建模具身智能在复杂环境中所需的核心推理能力:

  1. Ideal:设计为完全可观测、静态的参考任务,主要用于隔离和评估执行长序列指令本身所引发的累积误差。

  2. Memory Exploration:目标对象被隐藏在封闭容器或抽屉中,智能体需主动探索环境以形成完整的状态表示。

  3. Memory Execution:任务执行需基于先前探索阶段获得的中间知识完成目标,考验模型的记忆保持与调用能力。

  4. Random Disturbance:仿真过程引入外部扰动(如物体意外跌落),迫使模型具备在线状态更新与恢复机制。

  5. Observation Mismatching:感知信息存在误差或偏移,要求模型具有感知与计划之间的对齐鲁棒性。

  6. Mix:综合引入记忆依赖与动态扰动,构成对规划、记忆与反思能力最为严苛的评测场景。

2. 场景生成与数据采集流程

为了生成高质量、覆盖广泛的轨迹数据,RoboCerebra 设计了统一的生成、验证与标注流程,确保每一条轨迹在语义一致性、物理可执行性与评测可控性上的严格性。

  1. 任务生成与规则映射: 首先从 Libero 仿真库中随机采样多类可操作物体,并将其类别、动作约束与空间布局编码为结构化 JSON 表示。基于此上下文,采用 GPT-o3-mini 自动生成高层自然语言指令,再经规则引擎解析为平均约 9.1 步(最长 23 步)的 step-by-step 子任务,逐一映射为具备初始/目标状态的模拟脚本。

  2. 符号与视觉双重验证机制: 所有自动生成的任务脚本需依次通过两级验证流程:一方面,使用符号推理器检查每一步的前置与后置条件是否满足;另一方面,通过渲染多视角 RGB-D 图像,由 GPT-4o 检查场景合理性(如门是否关闭、物体是否遮挡)。若任一环节验证失败,系统将回退并重新生成,直至通过。

  3. 人工演示与精细化标注: 验证合格后,由人类专家在仿真环境中录制标准操作轨迹(总计约 400 小时),随后由独立标注团队进行人工质检与逐帧时间标注(约 200 小时)。标注内容包括动作起止时间、成功与失败标记、异常事件说明等,最终汇总为 1,000 条轨迹,覆盖 12 种离散动作 token,总步数达 2,972 步,轨迹中含有多类扰动(如柜门遮挡、感知错位、物体跌落等)。

3. 评测协议与指标体系

RoboCerebra 提供了系统化的评测协议与指标设计,旨在全面评估具身智能体在复杂任务分解、记忆调用与状态反思等大脑模型核心能力上的表现。整个评测流程基于高质量数据构建,并结合统一的执行节奏控制机制与多维度指标,确保结果具有一致性与可比较性。

首先,RoboCerebra 数据集共包含 1,000 条人工标注轨迹,涵盖 100 个任务变体,平均每条轨迹由约 9.1 个原子动作构成,累计划分出超过 10,000 个细粒度的 step-level 段落。任务覆盖了如饮品准备、物品归置、餐具整理等多种家庭场景操作,体现出显著的时空结构差异与组合复杂性。共定义了 12 种离散动作类别,其中 pick、place 与 pour 等高频 primitives 构成基本操作单元,而如 turn、store 等低频动作则反映了真实任务中对精细控制的需求。每个任务平均涉及 3.5 类动作,10% 以上任务包含五类以上动作,展示出较高的组合任务复杂度。

更重要的是,RoboCerebra 在时间尺度上显著超过现有基准。其平均轨迹长度达 2,972.4 步,约为现有长时序数据集的 6 倍,这为研究长期依赖下的控制策略、子目标抽象与记忆机制提供了坚实基础。轨迹长度与任务类型分布广泛,进一步增强了评测的多样性与覆盖面。

在此基础上,RoboCerebra 的评测协议包含以下关键机制与指标设计:

  1. 锚点同步机制: 为统一评测粒度,官方在轨迹中预设“锚点”(anchor points),即若干关键状态转换节点。所有评测模型必须在锚点处切换子目标,从而确保不同方法在子计划执行的时序对齐,消除策略在切换频率上的差异。

  2. 四维核心指标

  • 任务成功率(Success Rate,  :基于自动化谓词检测目标状态是否达成,是整体性能的主要衡量标准。

  • 计划匹配精度(Plan Match Accuracy,  :评估模型生成的高层符号计划是否与人工最优计划完全一致,反映语言理解与任务分解能力。

  • 计划效率(Plan Efficiency,  :在相同成功率前提下,使用符号执行长度归一化,度量计划简洁性与有效性。

  • 动作完成一致性(Action Completion Accuracy,  :基于 VideoQA 任务,对执行轨迹进行状态与因果性提问,评估模型的反思与状态追踪能力。

Hierarchical Planning & Execution 基线框架

为系统性评估多模态大模型在复杂机器人操作任务中的推理与控制协同能力,我们提出了具有代表性的 Hierarchical Planning & Execution (HPE) 层次化执行框架。该框架以认知神经机制为启发,将具备语言理解与规划能力的视觉语言模型(VLM)视为“高级认知模块(大脑)”,将具备精细运动执行能力的视觉动作模型(VLA)视为“低级控制模块(小脑)”,两者通过共享的任务记忆结构(Memory Bank)进行通信,从而实现高效的闭环控制。

具体而言:

  1. 层次分工与频率解耦:高层 VLM-Planner 以低频率处理环境观测,并据此动态生成子目标序列,用于任务进度跟踪与符号计划重构;低层 VLA-Controller 则以高频率执行当前子目标下的动作指令,实现精细控制与快速响应。该设计实现了认知层与执行层的功能解耦,提升了推理与动作生成效率。

  2. 共享记忆机制:Planner 与 Controller 通过 Memory Bank 实时共享当前任务状态与中间子目标。Planner 可在检测到外部扰动或子目标执行失败时,基于最新观测重写 Memory Bank,并下发新的子任务以实现自适应 replanning。

  3. 锚点对齐与量化分析:RoboCerebra 基准数据集中为每条操作轨迹标注了关键“锚点”,即子目标完成的逻辑分界点,从而确保在评估阶段,不同算法在子计划切换上的时序一致性,有效消除执行频率差异对评估指标的影响。这一机制为大小脑模块协同机制的系统性量化提供了可复现基础。

实验对比分析

实验设置

本次评测选取 100 个训练任务实例,将每条长序列分解为单步监督数据,用以微调 OpenVLA(200k step,batch 64,分辨率 256²)并作为统一的VLA控制器;随后固定该控制器,引入三类 大脑模型 候选 —— 预训练 VLM(GPT-4o、Qwen2.5-VL、LLaVA-Next-Video)、去视觉“盲版”与视频监督微调版。所有方法在六种子任务场景(Ideal、Random、Obs. Mismatch、Memory Exp./Exe.、Mix)各回放 10 次,总计 600 轮,且必须在官方标注的 锚点 上同步切换子目标,以排除步频差异。

主要结果

实验结果表明,单独使用低层控制器(VLA)或高层规划器(VLM)均难以稳定完成长时序任务,尤其在包含扰动与记忆依赖的复杂场景中性能显著受限。相比之下,RoboCerebra 所提出的 Hierarchical Planning & Execution 框架通过引入共享记忆机制实现大脑(VLM)与小脑(VLA)的有效协同,在六类评测任务中均显著提升了任务成功率,尤其在 Memory Execution 场景中提升幅度超过 70%,验证了层次结构在处理长期依赖与动态干扰任务中的必要性与有效性。!

消融实验结果

在对不同 Planner 模型的消融实验中,GPT-4o 显示出最强的整体性能,平均成功率达 16.04%,即便去除视觉输入也能保持 15.10%,凸显其强大的语言推理能力;然而,与人工设定的最优计划(GT-plan)仍有超 9% 的差距,说明当前模型在环境交互和视觉理解方面仍存在瓶颈。

大脑模型(VLM)评估结果

在多指标评估中,GPT-4o 在规划准确率、任务成功率和计划效率上全面领先,验证了强语言推理能力对长时任务执行的关键价值;尽管其在观测判断(AccC)表现较弱,仍优于经过微调的 Qwen2.5-VL-SFT 超过 6.5%,表明当前任务完成尚未显著依赖环境观察,而反思能力则可通过监督微调显著提升。

Memory任务评估结果

为了深入分析VLM在涉及记忆的操作任务中的作用,我们在统一的 Hierarchical Framework 下开展了精细化实验,重点评估不同 VLM 的推理能力对 Memory Exploration 与 Memory Execution 成功率的影响。除了总体成功率外,引入了三个中间指标以刻画推理过程的VLM质量与稳定性:

  1. 探索阶段能力评估使用 探索成功率(  衡量模型是否在探索阶段准确定位了目标物体,即便未完成整个任务也计入该指标。此外,引入 探索效率(  衡量生成探索路径的完整性与紧凑性。具体地,先定义预测路径   与真实路径   的重合率为计划完整度: 然后用该值除以预测路径长度  ,并在   个任务上平均,得到效率指标:

  2. 执行阶段决策评估为评估模型在执行阶段是否能够正确识别目标对象与采取合理子计划,引入 决策准确率( ,统计模型在执行路径中作出正确高层选择的比例。

结果显示,在探索能力方面,GPT-4o 在   上达到 80%,  为 0.32,显著优于 Qwen2.5-VL(50%,0.17);在执行阶段的决策准确率   方面,GPT-4o 同样领先(30% vs. 10%),表明其在场景理解、路径规划与记忆调用方面具备更强的一致性与稳健性。整体而言,当前 VLM 已初步展现出从探索到决策的完整推理链条,但在记忆保持与跨阶段信息传导上仍有较大优化空间。

参考

[1] RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值