RL4VLM 项目使用教程
1. 项目目录结构及介绍
RL4VLM 项目的目录结构如下:
RL4VLM/
├── LLaVA/
│ ├── ...
│ └── ...
├── GymCards/
│ ├── ...
│ └── ...
├── RL4VLM/
│ ├── GymCards/
│ │ ├── ...
│ │ └── ...
│ ├── ALFWorld/
│ │ ├── ...
│ │ └── ...
│ ├── config_zero2.yaml
│ ├── run_gymcards.sh
│ ├── run_alf.sh
│ └── ...
├── LICENSE.txt
├── README.md
└── ...
目录结构介绍
- LLaVA/: 包含 LLaVA 模型的代码,该项目对其进行了轻微修改。
- GymCards/: 包含 GymCards 环境的代码。
- RL4VLM/: 包含 RL4VLM 的主要代码,分为 GymCards 和 ALFWorld 两个子目录。
- GymCards/: 包含 GymCards 环境的 RL 代码。
- ALFWorld/: 包含 ALFWorld 环境的 RL 代码。
- config_zero2.yaml: 配置文件,用于设置运行参数。
- run_gymcards.sh: GymCards 环境的启动脚本。
- run_alf.sh: ALFWorld 环境的启动脚本。
- LICENSE.txt: 项目的 MIT 许可证文件。
- README.md: 项目的介绍文档。
2. 项目启动文件介绍
run_gymcards.sh
该脚本是用于启动 GymCards 环境的 RL 训练的脚本。主要功能包括:
- 设置 CUDA 可见设备。
- 调用配置文件
config_zero2.yaml
中的参数。 - 启动 GymCards 环境的 RL 训练。
run_alf.sh
该脚本是用于启动 ALFWorld 环境的 RL 训练的脚本。主要功能包括:
- 设置 CUDA 可见设备。
- 调用配置文件
config_zero2.yaml
中的参数。 - 启动 ALFWorld 环境的 RL 训练。
3. 项目配置文件介绍
config_zero2.yaml
该配置文件用于设置 RL 训练的参数,主要包括:
- num_processes: 设置并行处理的进程数,应与可用 GPU 数量匹配。
- 其他参数: 包括学习率、批量大小、训练轮数等。
配置文件示例
num_processes: 4
learning_rate: 0.0001
batch_size: 32
...
通过修改这些参数,可以调整 RL 训练的行为和性能。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考