技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~

点击下方卡片,关注“具身智能之心”公众号

作者丨具身智能之心

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文


>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面刚开始听到这些,也一头雾水,今天为大家梳理下。

π₀模型结构

原文:π0: A Vision-Language-Action Flow Model for General Robot Control

π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件:

VLM backbone

  • 基于 PaliGemma VLM,继承互联网规模的语义知识和视觉理解能力。

  • 融合多模态输入:通过图像编码器处理机器人视觉输入,语言编码器解析指令, proprioceptive state 编码器处理关节角度等物理状态。

动作专家(Action Expert)

  • 独立于 VLM 的子网络(3 亿参数),负责将 VLM 输出转换为连续动作。

  • 采用流匹配技术(扩散模型变体),通过噪声添加与去噪过程生成高频率动作序列(最高 50Hz),适合精细操作。

跨具身训练(Cross-Embodiment Training)

  • 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不同机器人的动作空间差异(如零填充低维动作向量)。

训练流程

  • 预训练阶段:使用多样化数据(含低质量但广泛的任务)赋予模型泛化能力。

  • 后训练阶段:通过高质量定制数据微调,优化复杂任务(如叠衣服)的执行流畅度。

π₀优势与功能

零样本直接执行任务

  • 通过语言提示(如 “fold shirt”)直接控制机器人,无需额外微调,适用于预训练中覆盖的任务。

复杂任务多阶段微调

  • 支持多阶段任务分解,如叠衣服需 “从烘干机取衣物→放入洗衣篮→折叠→堆叠”,通过后训练优化每一步骤。

语言指令跟随与高层策略集成

  • 结合高层 VLM 策略,将复杂任务(如 “bus the table”)分解为子任务(“pick up the napkin”→“throw into trash”),提升语义理解与任务规划能力。

高频率精细操作

  • 利用流匹配生成连续动作,支持 50Hz 控制频率,适用于需要高精度的操作(如折叠衣物、组装盒子)。

跨机器人泛化

  • 单模型适配多种机器人形态,无需为每种机器人单独训练,降低部署成本。

π₀性能分析

开箱即用性能(Out-of-Box Evaluation)

  • 在衬衫折叠、餐桌清理(难易版本)、杂货装袋等任务中,π₀的平均任务完成度显著高于基线模型(如 OpenVLA、Octo)。例如:

    • 衬衫折叠:成功率接近 100%,远超 OpenVLA(UR5e 单臂场景)。

    • 复杂清理(Bussing Hard):正确分类物体数量比 Octo 高 40%。

语言指令跟随准确率

  • 在餐桌清理、摆桌、杂货装袋任务中,π₀跟随人类或高层 VLM 指令的准确率比无 VLM 初始化的 π₀-small 高 20%-30%。

微调效率与新任务学习

  • 对于预训练中类似的任务(如叠毛巾、叠碗),使用 1-5 小时数据微调即可达到高成功率;对于全新任务(如微波炉放容器、纸巾更换),预训练模型比从头训练性能提升 2 倍。

复杂多阶段任务表现

  • 在叠衣服(含移动机器人场景)、盒子组装、鸡蛋装箱等任务中,π₀通过 “预训练 + 微调” 流程实现平均 60%-80% 的任务完成度,而从头训练(Scratch)或仅预训练(Out-of-Box)的表现显著更差。

π0.5模型结构

原文:π0.5: a Vision-Language-Action Model with Open-World Generalization

π0.5 采用双阶段训练框架分层架构,实现从多源数据中学习并泛化到新环境的能力:

整体架构设计

  • 核心框架:基于 Transformer 的视觉 - 语言 - 动作(VLA)模型,将图像、语言指令、动作等多模态输入编码为统一序列,通过自回归预测实现决策。

  • 分层推理机制

    • 高级语义子任务预测:根据全局任务(如 “清洁厨房”)推断下一步子任务(如 “拿起盘子”)。

    • 低级动作生成:基于子任务输出连续动作(如机械臂轨迹),采用流匹配(Flow Matching)技术优化动作连续性。

  • 动作表示融合:结合离散标记(FAST tokenizer)和连续表示(流匹配),预训练阶段使用离散标记提升效率,后训练阶段引入动作专家生成连续动作。

训练阶段划分

  • 预训练阶段:

    • 数据来源:400 小时移动机器人数据、非移动机器人数据、实验室跨实体数据、网页多模态数据(图像字幕、VQA、物体定位)。

    • 目标:通过异构数据(97.6% 非移动机器人数据)学习通用语义和视觉理解能力。

  • 后训练阶段:

    • 数据聚焦:筛选成功的移动操作数据,加入人类语言指令示范(VI)。

    • 技术优化:引入动作专家模块,通过流匹配优化动作生成,提升实时控制效率。

关键组件

  • 注意力机制:图像、语言、动作令牌采用双向注意力,确保多模态信息交互;动作专家与主模型单向通信,避免信息泄露。

  • 多模态编码器:视觉输入通过 SigLIP(400M 参数)处理,语言部分基于 Gemma(2.6B 参数)预训练模型,动作通过 FAST tokenizer 压缩为离散标记。

π0.5优势与功能

π0.5 在 “盘子入水槽”“衣物入篮” 等任务中成功率比 π0 高 25%-40%。离散 - 连续动作混合训练(FAST + 流匹配)比纯扩散模型(π0)更高效,训练速度提升 3 倍。

π0.5 通过数据多样性架构创新,解决传统 VLA 模型泛化局限:

异构数据驱动的泛化:利用机器人数据(移动 / 非移动)、网页知识、人类指令等多源信息,实现 “从未见场景中的任务执行”。

长时程任务处理能力:通过分层推理(子任务→动作),分解复杂目标为可执行步骤,支持 10 分钟以上连续操作。

零样本语义理解:基于网页数据预训练,理解未见过物体的语义(如 “识别烤面包机并放入橱柜”)。

关键功能

多场景适应性:

  • 移动机器人:在厨房、卧室等家庭环境中执行清洁、整理任务。

  • 跨实体迁移:从静态机械臂数据学习抓取策略,迁移至移动平台。

  • 人机交互增强:

    • 接受自然语言指令(如 “清理洒出的牛奶”),并生成对应的子任务序列。

    • 通过人类语言示范(VI)优化高级子任务预测,提升指令跟随准确性。

  • 鲁棒性与容错性:

    • 部分可观测场景下的推理(如遮挡物体的定位),通过语义知识弥补视觉缺失。

    • 动态环境适应(如未对齐的抽屉、不同高度的台面)。

技术突破

首次实现:端到端学习的机器人系统在完全陌生家庭中执行长时程、高难度操作(如 “制作床铺”“悬挂毛巾”)。

数据效率:仅用 400 小时移动机器人数据(占总训练数据 2.4%),通过异构数据迁移实现强泛化,突破传统模型对大规模专属数据的依赖。

π0.5 通过 “数据多样性 + 分层推理 + 跨模态迁移” 的设计,为机器人在开放世界中的实用化迈出关键一步。其核心价值在于证明:通过融合机器人实操数据、网页知识及人类指令,VLA 模型可突破实验室局限,在真实家庭环境中执行复杂任务。未来可进一步拓展至更多场景(如服务机器人、工业自动化),并通过更大规模数据和更先进的注意力机制提升泛化能力。

π0.5性能分析

π0.5 在新环境任务执行数据规模影响组件重要性方面展现显著优势:

真实环境任务表现

  • 场景:在 3 个未训练过的真实家庭中执行厨房 / 卧室清洁任务(如 “将餐具放入水槽”“整理床铺”)。

  • 结果:

    • 多阶段任务成功率达 60%-88%,任务时长 10-15 分钟(如清理整个厨房)。

    • 典型案例:Home 1 中 “将物品放入抽屉” 任务,模型自主分解为 “拉开抽屉→拿起夹子→放入抽屉” 等子步骤,成功率 88%。

训练数据规模与泛化关系

实验设置:vary 移动操作数据的环境数量(3-104 个位置),评估在模拟 / 真实环境中的表现。

关键发现:

  • 随训练环境增加,任务性能持续提升(如 “整理床铺” 成功率从 30% 升至 80%)。

  • 当使用 104 个训练位置时,模型性能接近直接在测试环境训练的基线(差距 < 5%),证明异构数据迁移的有效性。

消融实验:数据源重要性

  • 跨实体数据(ME/CE):移除后任务性能下降 20%-30%,尤其影响复杂操作(如 “挂毛巾”)。

  • 网页数据(WD):对未知物体泛化至关重要,移除后 “处理未见过物品” 成功率从 60% 降至 30%。

  • 高级子任务数据(HL):显式子任务推理提升长时程任务规划能力,移除后 “多阶段任务” 成功率下降 15%-25%。

A0模型结构

结构如上图所述,A0采用分层架构设计:

高层空间 Affordance 理解:借助扩散模型(DiT)预测以物体为中心的接触点和接触后轨迹,采用 Embodiment-Agnostic Affordance Representation,将任务指令、图像特征与空间坐标映射结合。

低层动作执行:通过 2D 到 3D 投影、抓取姿态估计和轨迹生成,把预测的 2D 关键点转化为机器人可执行的 SE (3) 空间动作。

核心组件

Position Offset Attention:提取物体运动特征,增强模型对动态信息的捕捉能力。

Spatial Information Aggregation Layer:实现精确的坐标映射,提升复杂场景下的定位精度。

预训练与微调策略:先在 100 万接触点数据集上预训练,再在标注轨迹数据上微调,增强模型的泛化能力。

A0优势与功能

核心优势:

  • 跨平台泛化能力:Embodiment-Agnostic 设计使其能在 Franka、Kinova、Realman、Dobot 等多种机器人平台上无缝部署。

  • 高效的空间推理:通过接触点和轨迹预测,避免了密集空间表示的高计算成本,提升了处理复杂任务的效率。

  • 数据利用效率:预训练结合微调的方式,只需少量任务特定数据即可适应新场景,降低了数据标注成本。

核心功能:

  • 复杂任务处理:可完成擦黑板、物体放置、开抽屉等需要空间推理的任务。

  • 多源数据整合:融合真实机器人数据、人类物体交互数据和互联网数据,构建统一的 Affordance 表示。

A0性能分析

定量结果:

  • Franka 机器人:平均成功率 62.5%,其中开抽屉任务成功率 75%,擦黑板任务成功率 45%。

  • Kinova 机器人:平均成功率 53.75%,在轨迹跟踪任务(如擦黑板)上优势明显,成功率比基线方法高 20%。

对比实验:

  • 与 2D Affordance 方法对比:在擦黑板等轨迹任务上,成功率比 MOKA 高 15%-20%,比 ReKep 高约 20%。

  • 与 VLA 方法对比:在 Kinova 平台的擦黑板任务中,A₀成功率 50%,远超 RDT-1B(10%)和 π₀(35%),且执行步骤仅为后者的 1/8-1/10。

具身智能之心知识星球

以上是我们在具身智能之心知识星球里面的分享,更多干货欢迎扫码加入!和近200家具身公司和机构一起交流产业和学术。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值