开源项目教程:open-pi-zero

开源项目教程:open-pi-zero

open-pi-zero Re-implementation of pi0 vision-language-action (VLA) model from Physical Intelligence open-pi-zero 项目地址: https://gitcode.com/gh_mirrors/op/open-pi-zero

1. 项目介绍

open-pi-zero 是一个基于 Physical Intelligence (Pi) 的 pi0 模型的开源项目。该模型采用了类似于 MoE(MoE-like)的架构,每个专家都有一组自己的参数,仅通过注意力机制进行交互。项目使用了预训练的 3B PaliGemma VLM(其中 2.291B 用于微调)以及一组新的动作专家参数(0.315B)。模型在动作专家的输出上使用流匹配损失进行训练。

2. 项目快速启动

环境搭建

首先,克隆项目仓库到本地目录:

git clone https://github.com/allenzren/open-pi-zero

然后,安装必要的依赖:

uv sync
uv pip install -e ../SimplerEnv
uv pip install -e ../SimplerEnv/ManiSkill2_real2sim

或者,你也可以使用 venv 或 conda env,然后在三个目录下运行:

pip install -e .

设置环境变量

设置 VLA_DATA_DIR(如果下载训练数据集)、VLA_LOG_DIRVLA_WANDB_ENTITY

source scripts/set_path.sh

下载预训练权重

TRANSFORMERS_CACHE 目录下下载 PaliGemma 权重:

cd $TRANSFORMERS_CACHE
git clone https://huggingface.co/google/paligemma-3b-pt-224

测试文本生成

使用预训练权重测试文本生成:

uv run src/model/vla/pizero.py --text_only --load_pretrained_weights --use_bf16

尝试检查点

目前,我已经使用 fractal 或 bridge 数据集进行了训练。以下是模型的链接:

  • Bridge-Uniform
  • Bridge-Beta
  • Fractal-Uniform
  • Fractal-Beta

在 Simpler 中下载检查点后运行:

uv run scripts/try_checkpoint_in_simpler.py \
--task google_robot_pick_horizontal_coke_can \
--checkpoint_path ...fractal_beta.pt \
--recording \
--use_bf16 \
--use_torch_compile

请注意,第一次运行可能会比较慢。

3. 应用案例和最佳实践

以下是一些应用案例和最佳实践:

  • 使用预训练模型进行文本生成。
  • 在 Simpler 环境中测试不同检查点的性能。
  • 根据具体任务调整模型参数,例如动作块大小、学习率等。

4. 典型生态项目

open-pi-zero 可以与以下项目配合使用:

  • SimplerEnv:用于机器人模拟的环境。
  • ManiSkill2_real2sim:用于真实到模拟的转换。

以上就是 open-pi-zero 项目的教程,希望对您有所帮助。

open-pi-zero Re-implementation of pi0 vision-language-action (VLA) model from Physical Intelligence open-pi-zero 项目地址: https://gitcode.com/gh_mirrors/op/open-pi-zero

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

姬如雅Brina

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值