Multimodal-Search-R1 项目启动与配置教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00566/article/details/148270418

Multimodal-Search-R1 项目启动与配置教程

multimodal-search-r1 项目地址: https://gitcode.com/gh_mirrors/mu/multimodal-search-r1

1. 项目目录结构及介绍

Multimodal-Search-R1 项目目录结构如下：

asset: 存储项目所需的静态资源文件。
scripts: 包含项目运行所需的脚本文件，如启动训练、评估等。
tools: 用于存放项目所依赖的外部工具和自定义工具实现。
.gitignore: 指定 Git 忽略跟踪的文件和目录。
LICENSE: 项目使用的 Apache-2.0 许可证文件。
Notice.txt: 项目通知文件。
README.md: 项目说明文件，包含项目信息、安装说明等。
pyproject.toml: 项目配置文件，定义了项目依赖等。
requirements.txt: 项目依赖文件，列出了项目所需的 Python 包。
setup.py: 项目设置文件，用于构建和打包项目。

2. 项目的启动文件介绍

项目的启动主要通过 scripts 目录下的脚本进行。以下是一些主要的启动脚本：

run_imsearch_grpo.sh: 用于启动项目的训练和评估流程。

启动训练示例：

bash scripts/run_imsearch_grpo.sh

3. 项目的配置文件介绍

项目的配置主要通过 scripts/run_imsearch_grpo.sh 脚本中的参数进行。以下是一些重要的配置参数：

actor_rollout_ref.rollout.name: 设置为 vllm_multiturn_imsearch 以启用多轮搜索回滚。
actor_rollout_ref.actor.use_multi_turn_response_mask: 设置为 True，用于精炼原始的 response_mask 以准确计算损失。
actor_rollout_ref.rollout.max_gen_round: 设置多轮回滚期间的最大轮数。
data.max_response_length: 每轮的最大响应长度。
actor_rollout_ref.rollout.response_length_total: 除第一轮用户提示外的所有轮次的最大对话长度。

进行评估时，可以在脚本中配置以下参数：

...
trauner.val_files=${path_to_val_data}
+trainer.val_only=True \
trainer.val_generations_to_log_to_wandb=64

上述配置中，trauner.val_files 用于指定评估数据文件的路径，trainer.val_only=True 表示只进行评估不进行训练，trainer.val_generations_to_log_to_wandb 用于设置记录到 Weights & Biases 的评估生成数量。

项目启动和配置完成后，您可以根据具体需求进行调整和优化。

multimodal-search-r1 项目地址: https://gitcode.com/gh_mirrors/mu/multimodal-search-r1

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考