π0.5 论文
通过异构数据协同训练与分层推理,用中等规模的目标数据(400小时)实现了大规模泛化能力,为现实世界机器人学习提供了新范式。


高层推理(high-level) 根据当前观测和任务指令预测子任务(如“打开抽屉”)。低层推理(low-level) 基于当前观测和子任务生成具体动作序列。低级推理动作能够受益于其他机器人收集的数据;高级推理能从网络上的语义示例,高级注释预测中受益。
- 输入:多摄像头图像、语言指令、机器人本体状态(关节位姿)。
- 输出:高层语义子任务(文本 token)和底层动作序列(连续向量)。
- 模态交互:图像通过视觉编码器嵌入,文本和动作通过独立编码器处理,通过双向注意力机制(不同于 LLM 的因果注意力)交互。
- 动作专家(Action Expert:专用于 flow matching 的小型 Transformer,生成高精度连续动作。
- 注意力掩码:限制动作 token 与文本/图像 token 的单向信息流,避免信息泄露。

模型的核心分布为 π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) \pi_{\theta}(\mathbf{a}_{t:t+H},\hat{\ell}|\mathbf{o}_{t},\ell) πθ(at:t+H,ℓ^∣ot,ℓ) 其中 ℓ \ell ℓ 是整体任务提示, ℓ ^ \hat{\ell} ℓ^ 是各个子任务的提示。
将联合分布拆解为高层次和低层次两个子任务:
π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) = π θ ( a t : t + H ∣ o t , ℓ ^ ) π θ ( ℓ ^ ∣ o t , ℓ ) \pi_\theta(\mathbf{a}_{t:t+H},\hat{\ell}\left|\mathbf{o}_t,\ell\right)=\pi_\theta(\mathbf{a}_{t:t+H}\left|\mathbf{o}_t,\hat{\ell}\right.)\pi_\theta(\hat{\ell}\left|\mathbf{o}_t,\ell\right) πθ(at:t+H,ℓ^∣ot,ℓ)=πθ(a

最低0.47元/天 解锁文章
1060






