开源项目使用教程:Multimodal Open R1
1. 项目介绍
Multimodal Open R1 是一个开源项目,基于 EvolvingLMMs-Lab 的 open-r1 项目,增加了对多模态模型训练的支持。项目主要关注多模态推理模型的研究,集成了 Qwen2-VL 系列、Aria-MoE 等多种可用的视觉语言模型。该项目旨在提供一个研究平台,以促进社区对多模态推理模型的理解和改进。
2. 项目快速启动
以下是快速启动 Multimodal Open R1 的步骤:
首先,确保你已经安装了必要的依赖项,包括 vllm、wandb 等。以下是一个示例安装命令:
pip3 install vllm==0.6.6.post1
pip3 install -e ".[dev]"
pip3 install wandb==0.18.3
然后,你可以使用以下命令来运行 GRPO 训练:
cd /home/tiger/multimodal-open-r1
torchrun --nproc_per_node="${ARNOLD_WORKER_GPU}" \
--nnodes="${ARNOLD_WORKER_NUM}" \
--node_rank="${ARNOLD_ID}" \
--master_addr="${METIS_WORKER_0_HOST}" \
--master_port="${port_in_cmd}" \
src/open_r1/grpo.py \
--deepspeed scripts/zero3.json \
--output_dir checkpoints/Qwen2-VL-2B-GRPO-8k \
--model_name_or_path Qwen/Qwen2-VL-2B-Instruct \
--dataset_name lmms-lab/multimodal-open-r1-8k-verified \
--max_prompt_length 8192 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 1 \
--logging_steps 1 \
--bf16 \
--report_to wandb \
--gradient_checkpointing true \
--attn_implementation flash_attention_2 \
--max_pixels 2359296 \
--save_total_limit 8 \
--num_train_epochs 1 \
--run_name Qwen2-VL-2B-GRPO-8k
请根据你的硬件配置调整命令中的参数。
3. 应用案例和最佳实践
- 多模态推理:项目提供了针对数学推理的多模态训练示例,可以帮助研究者在多模态推理领域进行探索。
- 数据集创建:项目提供了一个脚本来帮助用户生成自己的多模态 RL 训练数据。
- 模型评估:项目使用 lmms-eval 工具来评估模型性能,确保模型在推理任务上的有效性。
4. 典型生态项目
目前,Multimodal Open R1 项目的生态还包括以下相关项目:
- Qwen2-VL:一个基于 Transformer 的视觉语言模型,适用于多种多模态任务。
- DeepSeek-R1:一个用于多模态推理的强化学习模型。
- lmms-lab/multimodal-open-r1-8k-verified:一个验证过的多模态 RL 训练数据集。
通过这些项目,社区可以更好地理解和扩展多模态推理模型的应用范围。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考