开源项目使用教程：Multimodal Open R1

最新推荐文章于 2025-04-09 10:10:29 发布

邱晋力

最新推荐文章于 2025-04-09 10:10:29 发布

阅读量821

点赞数 12

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00036/article/details/147085913

开源项目使用教程：Multimodal Open R1

open-r1-multimodal A fork to add multimodal model training to open-r1 项目地址: https://gitcode.com/gh_mirrors/op/open-r1-multimodal

1. 项目介绍

Multimodal Open R1 是一个开源项目，基于 EvolvingLMMs-Lab 的 open-r1 项目，增加了对多模态模型训练的支持。项目主要关注多模态推理模型的研究，集成了 Qwen2-VL 系列、Aria-MoE 等多种可用的视觉语言模型。该项目旨在提供一个研究平台，以促进社区对多模态推理模型的理解和改进。

2. 项目快速启动

以下是快速启动 Multimodal Open R1 的步骤：

首先，确保你已经安装了必要的依赖项，包括 vllm、wandb 等。以下是一个示例安装命令：

pip3 install vllm==0.6.6.post1
pip3 install -e ".[dev]"
pip3 install wandb==0.18.3

然后，你可以使用以下命令来运行 GRPO 训练：

cd /home/tiger/multimodal-open-r1

torchrun --nproc_per_node="${ARNOLD_WORKER_GPU}" \
--nnodes="${ARNOLD_WORKER_NUM}" \
--node_rank="${ARNOLD_ID}" \
--master_addr="${METIS_WORKER_0_HOST}" \
--master_port="${port_in_cmd}" \
src/open_r1/grpo.py \
--deepspeed scripts/zero3.json \
--output_dir checkpoints/Qwen2-VL-2B-GRPO-8k \
--model_name_or_path Qwen/Qwen2-VL-2B-Instruct \
--dataset_name lmms-lab/multimodal-open-r1-8k-verified \
--max_prompt_length 8192 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 1 \
--logging_steps 1 \
--bf16 \
--report_to wandb \
--gradient_checkpointing true \
--attn_implementation flash_attention_2 \
--max_pixels 2359296 \
--save_total_limit 8 \
--num_train_epochs 1 \
--run_name Qwen2-VL-2B-GRPO-8k

请根据你的硬件配置调整命令中的参数。