论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control

π0 论文

π 0 π_0 π0 是基于预训练的 VLM 模型增加了 action expert ,并结合了 flow matching 方法训练的自回归模型,能够直接输出模型的 action chunk(50)。

在这里插入图片描述

  • π0 采用 Flow Matching 技术来建模连续动作的分布,这一创新使模型能够精确控制高频率的灵巧操作任务,同时具备处理多模态数据的能力。
  • 架构受到 Transfusion 的启发 :通过单一 Transformer 处理多目标任务,其中连续输出由流匹配损失监督,离散输出则由交叉熵损失监督。π0 在此基础上进行了针对性优化,特别为机器人领域的动作和状态 tokens 设计了一组独立的动作专家(Transformer)模块。
  • 在推理阶段,π0 采用了高效的执行策略:新增的动作专家模块需要进行 10 次 flow matching 去噪迭代,而基础视觉语言模型(PaliGemma)仅需执行一次前向传播即可生成输出。
    在这里插入图片描述输入
  • PaliGemma 接受的图像 [ I t 1 , … … , I t n ] [I_t^1 ,……, I_t^n] [It1……Itn] 和语言指令 l t l_t lt
  • 输入噪声 A t = [ a t , a t + 1 , … … , a t + H − 1 ] A_t = [a_t,a_{t+1},……,a_{t+H-1}] At=[at,at+1,……,at+H1] 未来动作的 action chunk(50)。
  • 自身状态 q t q_t qt
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值