点击下方卡片,关注“具身智能之心”公众号
>>直播和内容获取转到→具身智能之心知识星球
由无界智慧(Spatialtemporal AI)团队推出的A0模型,是首个基于空间可供性感知的通用机器人分层扩散模型,通过具身无关的可供性表征(Embodiment-Agnostic Affordance Representation)实现了跨平台的通用操作能力,模型框架和代码等已经开源。
论文链接:https://arxiv.org/abs/2504.12636
项目主页:https://a-embodied.github.io/A0/
机器人操作面临的核心挑战
在机器人技术快速发展的今天,通用化操作能力始终是制约行业发展的关键瓶颈。想象一下,当你让机器人"擦干净白板"时,它需要准确理解应该在何处施力("where"),以及如何移动抹布("how")。这正是当前机器人操作面临的核心挑战——空间可供性感知理解不足。
现有方法主要分为两类:基于模块化的方法和端到端的视觉-语言-动作(VLA)大模型。前者虽然能利用视觉基础模型进行空间理解,但对物体可供性的捕捉有限;后者虽能直接生成动作,却缺乏对空间位置的深入理解。这导致在擦白板、堆叠物体等复杂任务中表现欠佳。
A0模型的创新突破

A0的创新性体现在三个层面:
分层任务分解:将操作任务拆解为高层空间可供性理解和低层动作执行
具身无关设计:仅预测物体接触点和轨迹,不与特定机器人平台绑定
高效表征学习:100万接触点数据预训练+标注轨迹微调,从而实现跨不同机器人平台的泛化能力。
技术核心:如何实现空间可供性感知?
A0的技术架构包含两大核心组件:
1. 具身无关可供性表征
研究团队构建了统一的可供性表征,整理整合了来自四类数据源的操作知识:
互联网数据(PixMo-One-Point:100万单接触点标注),从公开的PixMo-Points数据集中筛选出单个点标注的数据得到。
人机交互数据(HO4D-22k:22,000条人-物交互轨迹)
真实机器人数据(DROID-3k:3,000条操作轨迹)
仿真数据(ManiSkill-5k:4,965条仿真轨迹)
这种表征仅包含物体中心的图像、2D路径点和语言指令,实现了跨数据源的统一表示。
2. 分层扩散模型架构

模型采用基于DiT的扩散模型,其输入是T×2的高斯噪声,预测机器人操作的T个2D路径点。使用Qwen2.5-7B和SigLip (400M) 作为语言和图像编码器得到对应的嵌入表示。当前图像和前一步图像经过SigLip的嵌入表示进行拼接。通过交叉注意力交替地输入语言和图像的嵌入表示到DiT层作为扩散模型的条件。
模型包含两大创新模块:
位置偏移注意力(POA):通过当前帧与前一帧的token差值获取运动信息
空间信息聚合层(SIAL):将潜在空间映射回物理空间的非线性MLP解码器
训练过程分为两个阶段:
预训练阶段:使用100万规模的PixMo-One-Point数据集,使用MSE损失监督第一个路径点预测
微调阶段:扩展至T个路径点预测,加入运动信息理解
DiT前向和后向过程分别设置为1000和5步。推理阶段使用DPM-Solver
动作执行
A0 模型的动作生成流程包括三步:
1. 2D→3D 投影
对图像上预测的关键点(包括接触点和后续方向提示点),利用深度图和相机内参反投影到三维空间,得到每个点的 3D 坐标。
2. 抓取姿态估计
以反投影的接触点为参考,调用 GraspNet 或其他抓取采样器生成一组候选抓取姿态,再挑选最贴近该点的最佳抓取方案。
3. 路径点选择与执行
对剩余方向提示关键点同样反投影至三维,并让 VLM 判断它们在自由空间中的高度类别(如“与目标平齐”或“高于目标”),最后在 SE(3) 空间内插值生成平滑轨迹,驱动真实机器人完成操作。
实验结果:跨平台验证卓越性能
研究团队在Franka、Kinova、Realman和Dobot四种机器人平台上进行了全面验证:
1. 离线评估:
评测A0模型在HOI4D-22k, Maniskill-5k和DROID-3k数据集上预测路径点的准确率,使用像素值MAE指标 (三个数据集的图像分辨率分别是1920×1080, 512×512, and 320×180)。训练集和测试集按照8:2划分。结果如下表所示。
预训练能够提升模型对空间物体位置定位能力和泛化能力。消融实验证明了POA和SIAL模块都是有效的,SIAL能够有效地将中间层特征映射为动作的2D路径点。
预训练使HOI4D-22k和ManiSkill-5k数据集的像素值MAE分别降低47.5和5.5
移除POA会使ManiSkill-5k任务MAE增加0.8
移除SIAL会使HO4D任务MAE飙升13.2


2. 真实场景测试:
在Franka平台上平均成功率62.5%,较次优方法提升18.75%
在Kinova平台上达到53.75%成功率,较最弱基线提升20%
特别在"擦白板"任务中表现突出(成功率45%)


表2. SOTA方法性能对比
3. 对比实验:
相比VLA方法RDT-1B和π0,在擦白板任务中成功率高出15%
执行步骤仅需4-5步,是VLA方法的1/8到1/10

讨论
A0模型已展现出在家庭服务、工业操作和居家康养等场景的应用潜力。研究团队指出未来两大改进方向:
抓取姿态估计:结合VLM视觉辅助选择最优抓取位置
高度估计优化:整合深度信息直接预测高度
团队介绍
无界智慧(Spatialtemporal AI)是一家专注于基于空间智能的跨场景具身Agent的AI公司,致力于打造具备自主感知、理解、决策与执行能力的服务机器人系统。我们当前面向“康养场景”构建具备真实任务执行能力的智能康养机器人,部署于养老院、康养社区、家庭养老、示范样板间等场景。
无界智慧团队成员由来自CMU、UIUC、MBZUAI、清华、北大、中山大学、南方科技大学以及中科院的研究人员组成。团队在机器人和人工智能领域具有深厚的学术造诣,已在T-PAMI、CVPR、ICCV、ICML、NeurIPS、ICLR、ICRA、RSS等国际顶级会议和期刊上发表数百篇高水平学术论文。
A0作为首个引入空间可供性感知的通用机器人操作分层模型,在Franka、Kinova、Realman 和 Dobot等多个机器人平台上进行了实验验证,开启机器人操作研究和应用的新篇章。
团队表示,目前正在持续迭代基于时空智能的通用具身大模型和通用具身Agent,推动具身智能和人形机器人领域的技术突破。