重磅分享！A0：首个基于空间可供性感知的通用机器人分层模型

转载于 2025-06-26 18:41:49 发布 · 41 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247669351&idx=2&sn=93ebe874c220416803db7646806b016c&chksm=cfaf7192d05b6d4651fb114010ff3dc1be9532c6ebad22f69844f0e89374495eac6d6944620f&scene=126&sessionid=0

文章标签：

点击下方卡片，关注“具身智能之心”公众号

>>直播和内容获取转到→具身智能之心知识星球

由无界智慧（Spatialtemporal AI）团队推出的A0模型，是首个基于空间可供性感知的通用机器人分层扩散模型，通过具身无关的可供性表征（Embodiment-Agnostic Affordance Representation）实现了跨平台的通用操作能力，模型框架和代码等已经开源。

论文链接：https://arxiv.org/abs/2504.12636
项目主页：https://a-embodied.github.io/A0/

机器人操作面临的核心挑战

在机器人技术快速发展的今天，通用化操作能力始终是制约行业发展的关键瓶颈。想象一下，当你让机器人"擦干净白板"时，它需要准确理解应该在何处施力（"where"），以及如何移动抹布（"how"）。这正是当前机器人操作面临的核心挑战——空间可供性感知理解不足。

现有方法主要分为两类：基于模块化的方法和端到端的视觉-语言-动作（VLA）大模型。前者虽然能利用视觉基础模型进行空间理解，但对物体可供性的捕捉有限；后者虽能直接生成动作，却缺乏对空间位置的深入理解。这导致在擦白板、堆叠物体等复杂任务中表现欠佳。

A0模型的创新突破

图1. A0模型总体图

A0的创新性体现在三个层面：

分层任务分解：将操作任务拆解为高层空间可供性理解和低层动作执行
具身无关设计：仅预测物体接触点和轨迹，不与特定机器人平台绑定
高效表征学习：100万接触点数据预训练+标注轨迹微调，从而实现跨不同机器人平台的泛化能力。

技术核心：如何实现空间可供性感知？

A0的技术架构包含两大核心组件：

1. 具身无关可供性表征

研究团队构建了统一的可供性表征，整理整合了来自四类数据源的操作知识：

互联网数据（PixMo-One-Point：100万单接触点标注），从公开的PixMo-Points数据集中筛选出单个点标注的数据得到。
人机交互数据（HO4D-22k：22,000条人-物交互轨迹）
真实机器人数据（DROID-3k：3,000条操作轨迹）
仿真数据（ManiSkill-5k：4,965条仿真轨迹）

这种表征仅包含物体中心的图像、2D路径点和语言指令，实现了跨数据源的统一表示。

2. 分层扩散模型架构

图2. A0模型结构图

模型采用基于DiT的扩散模型，其输入是T×2的高斯噪声，预测机器人操作的T个2D路径点。使用Qwen2.5-7B和SigLip (400M) 作为语言和图像编码器得到对应的嵌入表示。当前图像和前一步图像经过SigLip的嵌入表示进行拼接。通过交叉注意力交替地输入语言和图像的嵌入表示到DiT层作为扩散模型的条件。

模型包含两大创新模块：

位置偏移注意力（POA）：通过当前帧与前一帧的token差值获取运动信息
空间信息聚合层（SIAL）：将潜在空间映射回物理空间的非线性MLP解码器

训练过程分为两个阶段：

预训练阶段：使用100万规模的PixMo-One-Point数据集，使用MSE损失监督第一个路径点预测
微调阶段：扩展至T个路径点预测，加入运动信息理解

DiT前向和后向过程分别设置为1000和5步。推理阶段使用DPM-Solver

动作执行

A0 模型的动作生成流程包括三步：

1. 2D→3D 投影

对图像上预测的关键点（包括接触点和后续方向提示点），利用深度图和相机内参反投影到三维空间，得到每个点的 3D 坐标。

2. 抓取姿态估计

以反投影的接触点为参考，调用 GraspNet 或其他抓取采样器生成一组候选抓取姿态，再挑选最贴近该点的最佳抓取方案。

3. 路径点选择与执行

对剩余方向提示关键点同样反投影至三维，并让 VLM 判断它们在自由空间中的高度类别（如“与目标平齐”或“高于目标”），最后在 SE(3) 空间内插值生成平滑轨迹，驱动真实机器人完成操作。

实验结果：跨平台验证卓越性能

研究团队在Franka、Kinova、Realman和Dobot四种机器人平台上进行了全面验证：

1. 离线评估：

评测A0模型在HOI4D-22k, Maniskill-5k和DROID-3k数据集上预测路径点的准确率，使用像素值MAE指标 (三个数据集的图像分辨率分别是1920×1080, 512×512, and 320×180)。训练集和测试集按照8:2划分。结果如下表所示。

预训练能够提升模型对空间物体位置定位能力和泛化能力。消融实验证明了POA和SIAL模块都是有效的，SIAL能够有效地将中间层特征映射为动作的2D路径点。

预训练使HOI4D-22k和ManiSkill-5k数据集的像素值MAE分别降低47.5和5.5
- 移除POA会使ManiSkill-5k任务MAE增加0.8
- 移除SIAL会使HO4D任务MAE飙升13.2

图3. 预训练模型MAE性能

表1. 离线评估 & 消融实验

2. 真实场景测试：

在Franka平台上平均成功率62.5%，较次优方法提升18.75%
在Kinova平台上达到53.75%成功率，较最弱基线提升20%
特别在"擦白板"任务中表现突出（成功率45%）

图4. Franka Emika真机评测

表2. SOTA方法性能对比

3. 对比实验：

相比VLA方法RDT-1B和π0，在擦白板任务中成功率高出15%
执行步骤仅需4-5步，是VLA方法的1/8到1/10

表3. 与RDT-1B和π0在Kinova真机上对比实验

讨论

A0模型已展现出在家庭服务、工业操作和居家康养等场景的应用潜力。研究团队指出未来两大改进方向：

抓取姿态估计：结合VLM视觉辅助选择最优抓取位置
高度估计优化：整合深度信息直接预测高度

团队介绍

无界智慧（Spatialtemporal AI）是一家专注于基于空间智能的跨场景具身Agent的AI公司，致力于打造具备自主感知、理解、决策与执行能力的服务机器人系统。我们当前面向“康养场景”构建具备真实任务执行能力的智能康养机器人，部署于养老院、康养社区、家庭养老、示范样板间等场景。

无界智慧团队成员由来自CMU、UIUC、MBZUAI、清华、北大、中山大学、南方科技大学以及中科院的研究人员组成。团队在机器人和人工智能领域具有深厚的学术造诣，已在T-PAMI、CVPR、ICCV、ICML、NeurIPS、ICLR、ICRA、RSS等国际顶级会议和期刊上发表数百篇高水平学术论文。

A0作为首个引入空间可供性感知的通用机器人操作分层模型，在Franka、Kinova、Realman 和 Dobot等多个机器人平台上进行了实验验证，开启机器人操作研究和应用的新篇章。

团队表示，目前正在持续迭代基于时空智能的通用具身大模型和通用具身Agent，推动具身智能和人形机器人领域的技术突破。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。