论文阅读笔记——π0.5: a Vision-Language-Action Model with Open-World Generalization

π0.5 论文
通过异构数据协同训练与分层推理,用中等规模的目标数据(400小时)实现了大规模泛化能力,为现实世界机器人学习提供了新范式。
在这里插入图片描述
在这里插入图片描述
高层推理(high-level) 根据当前观测和任务指令预测子任务(如“打开抽屉”)。低层推理(low-level) 基于当前观测和子任务生成具体动作序列。低级推理动作能够受益于其他机器人收集的数据;高级推理能从网络上的语义示例,高级注释预测中受益。

  • 输入:多摄像头图像、语言指令、机器人本体状态(关节位姿)。
  • 输出:高层语义子任务(文本 token)和底层动作序列(连续向量)。
  • 模态交互:图像通过视觉编码器嵌入,文本和动作通过独立编码器处理,通过双向注意力机制(不同于 LLM 的因果注意力)交互。
  • 动作专家(Action Expert:专用于 flow matching 的小型 Transformer,生成高精度连续动作。
  • 注意力掩码:限制动作 token 与文本/图像 token 的单向信息流,避免信息泄露。
    在这里插入图片描述

模型的核心分布为 π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) \pi_{\theta}(\mathbf{a}_{t:t+H},\hat{\ell}|\mathbf{o}_{t},\ell) πθ(at:t+H,^ot,) 其中 ℓ \ell 是整体任务提示, ℓ ^ \hat{\ell} ^ 是各个子任务的提示。
将联合分布拆解为高层次和低层次两个子任务:
π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) = π θ ( a t : t + H ∣ o t , ℓ ^ ) π θ ( ℓ ^ ∣ o t , ℓ ) \pi_\theta(\mathbf{a}_{t:t+H},\hat{\ell}\left|\mathbf{o}_t,\ell\right)=\pi_\theta(\mathbf{a}_{t:t+H}\left|\mathbf{o}_t,\hat{\ell}\right.)\pi_\theta(\hat{\ell}\left|\mathbf{o}_t,\ell\right) πθ(at:t+H,^ot,)=πθ(a

内容概要:π0.5是一种具有开放世界泛化能力的视觉-语言-动作模型,能够控制移动机械臂在训练数据中未出现的新家庭环境中执行复杂的多阶段任务,如清洁厨房和卧室。该模型通过协同训练,利用来自多个机器人、高级语义预测、网络数据和其他来源的数据,实现了广泛可泛化的实际操作。π0.5的设计采用分层架构,首先预测语义子任务,然后根据子任务预测低级机器人动作。实验表明,这种设计不仅提高了模型在新环境中的泛化能力,还显著增强了其执行复杂任务的性能。 适合人群:对机器人技术、机器学习和人工智能感兴趣的科研人员和工程师,特别是从事机器人操作和视觉-语言模型研究的专业人士。 使用场景及目标:①研究如何通过协同训练提高机器人在未知环境中的泛化能力;②开发能够在家庭环境中执行复杂任务的移动机械臂;③探索如何利用多模态数据提升机器人操作的灵活性和适应性。 其他说明:π0.5模型的训练分为预训练和后训练两个阶段。预训练阶段利用离散标记进行高效训练,后训练阶段则引入流匹配动作专家以实现快速推理。模型通过结合多种数据源,如移动机械臂数据、非移动机器人数据、实验室数据、高级子任务预测和多模态网络数据,显著提升了其泛化能力。实验结果表明,π0.5不仅在全新环境中表现出色,而且在复杂多阶段任务中也展现了强大的适应性和灵活性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值