重磅分享!A0:首个基于空间可供性感知的通用机器人分层模型

点击下方卡片,关注“具身智能之心”公众号

>>直播和内容获取转到具身智能之心知识星球

由无界智慧(Spatialtemporal AI)团队推出的A0模型,是首个基于空间可供性感知的通用机器人分层扩散模型,通过具身无关的可供性表征(Embodiment-Agnostic Affordance Representation)实现了跨平台的通用操作能力,模型框架和代码等已经开源。

论文链接:https://arxiv.org/abs/2504.12636
项目主页:https://a-embodied.github.io/A0/

机器人操作面临的核心挑战

在机器人技术快速发展的今天,通用化操作能力始终是制约行业发展的关键瓶颈。想象一下,当你让机器人"擦干净白板"时,它需要准确理解应该在何处施力("where"),以及如何移动抹布("how")。这正是当前机器人操作面临的核心挑战——空间可供性感知理解不足。

现有方法主要分为两类:基于模块化的方法和端到端的视觉-语言-动作(VLA)大模型。前者虽然能利用视觉基础模型进行空间理解,但对物体可供性的捕捉有限;后者虽能直接生成动作,却缺乏对空间位置的深入理解。这导致在擦白板、堆叠物体等复杂任务中表现欠佳。

A0模型的创新突破

图1. A0模型总体图

A0的创新性体现在三个层面:

  1. 分层任务分解:将操作任务拆解为高层空间可供性理解和低层动作执行

  2. 具身无关设计:仅预测物体接触点和轨迹,不与特定机器人平台绑定

  3. 高效表征学习:100万接触点数据预训练+标注轨迹微调,从而实现跨不同机器人平台的泛化能力。

技术核心:如何实现空间可供性感知?

A0的技术架构包含两大核心组件:

1. 具身无关可供性表征

研究团队构建了统一的可供性表征,整理整合了来自四类数据源的操作知识:

  • 互联网数据(PixMo-One-Point:100万单接触点标注),从公开的PixMo-Points数据集中筛选出单个点标注的数据得到。

  • 人机交互数据(HO4D-22k:22,000条人-物交互轨迹)

  • 真实机器人数据(DROID-3k:3,000条操作轨迹)

  • 仿真数据(ManiSkill-5k:4,965条仿真轨迹)

这种表征仅包含物体中心的图像、2D路径点和语言指令,实现了跨数据源的统一表示。

2. 分层扩散模型架构

图2. A0模型结构图

模型采用基于DiT的扩散模型,其输入是T×2的高斯噪声,预测机器人操作的T个2D路径点。使用Qwen2.5-7B和SigLip (400M) 作为语言和图像编码器得到对应的嵌入表示。当前图像和前一步图像经过SigLip的嵌入表示进行拼接。通过交叉注意力交替地输入语言和图像的嵌入表示到DiT层作为扩散模型的条件。

模型包含两大创新模块:

  • 位置偏移注意力(POA):通过当前帧与前一帧的token差值获取运动信息

  • 空间信息聚合层(SIAL):将潜在空间映射回物理空间的非线性MLP解码器

训练过程分为两个阶段:

  1. 预训练阶段:使用100万规模的PixMo-One-Point数据集,使用MSE损失监督第一个路径点预测

  2. 微调阶段:扩展至T个路径点预测,加入运动信息理解

DiT前向和后向过程分别设置为1000和5步。推理阶段使用DPM-Solver

动作执行

A0 模型的动作生成流程包括三步:

 1. 2D→3D 投影

对图像上预测的关键点(包括接触点和后续方向提示点),利用深度图和相机内参反投影到三维空间,得到每个点的 3D 坐标。

 2. 抓取姿态估计

以反投影的接触点为参考,调用 GraspNet 或其他抓取采样器生成一组候选抓取姿态,再挑选最贴近该点的最佳抓取方案。

 3. 路径点选择与执行

对剩余方向提示关键点同样反投影至三维,并让 VLM 判断它们在自由空间中的高度类别(如“与目标平齐”或“高于目标”),最后在 SE(3) 空间内插值生成平滑轨迹,驱动真实机器人完成操作。

实验结果:跨平台验证卓越性能

研究团队在Franka、Kinova、Realman和Dobot四种机器人平台上进行了全面验证:

1. 离线评估:

评测A0模型在HOI4D-22k, Maniskill-5k和DROID-3k数据集上预测路径点的准确率,使用像素值MAE指标 (三个数据集的图像分辨率分别是1920×1080, 512×512, and 320×180)。训练集和测试集按照8:2划分。结果如下表所示。

预训练能够提升模型对空间物体位置定位能力和泛化能力。消融实验证明了POA和SIAL模块都是有效的,SIAL能够有效地将中间层特征映射为动作的2D路径点。

  • 预训练使HOI4D-22k和ManiSkill-5k数据集的像素值MAE分别降低47.5和5.5

    • 移除POA会使ManiSkill-5k任务MAE增加0.8

    • 移除SIAL会使HO4D任务MAE飙升13.2

图3. 预训练模型MAE性能
表1. 离线评估 & 消融实验

2. 真实场景测试:

  • 在Franka平台上平均成功率62.5%,较次优方法提升18.75%

  • 在Kinova平台上达到53.75%成功率,较最弱基线提升20%

  • 特别在"擦白板"任务中表现突出(成功率45%)

图4. Franka Emika真机评测

表2. SOTA方法性能对比

3. 对比实验:

  • 相比VLA方法RDT-1B和π0,在擦白板任务中成功率高出15%

  • 执行步骤仅需4-5步,是VLA方法的1/8到1/10

表3. 与RDT-1B和π0在Kinova真机上对比实验

讨论

A0模型已展现出在家庭服务、工业操作和居家康养等场景的应用潜力。研究团队指出未来两大改进方向:

  1. 抓取姿态估计:结合VLM视觉辅助选择最优抓取位置

  2. 高度估计优化:整合深度信息直接预测高度

团队介绍

无界智慧(Spatialtemporal AI)是一家专注于基于空间智能的跨场景具身Agent的AI公司,致力于打造具备自主感知、理解、决策与执行能力的服务机器人系统。我们当前面向“康养场景”构建具备真实任务执行能力的智能康养机器人,部署于养老院、康养社区、家庭养老、示范样板间等场景。

无界智慧团队成员由来自CMU、UIUC、MBZUAI、清华、北大、中山大学、南方科技大学以及中科院的研究人员组成。团队在机器人和人工智能领域具有深厚的学术造诣,已在T-PAMI、CVPR、ICCV、ICML、NeurIPS、ICLR、ICRA、RSS等国际顶级会议和期刊上发表数百篇高水平学术论文。

A0作为首个引入空间可供性感知的通用机器人操作分层模型,在Franka、Kinova、Realman 和 Dobot等多个机器人平台上进行了实验验证,开启机器人操作研究和应用的新篇章。

团队表示,目前正在持续迭代基于时空智能的通用具身大模型和通用具身Agent,推动具身智能和人形机器人领域的技术突破。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值