FineGrainedRLHF 项目使用教程

虞怀灏Larina

于 2024-09-27 07:11:13 发布

阅读量904

点赞数 13

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00548/article/details/142582854

FineGrainedRLHF 项目使用教程

FineGrainedRLHF 项目地址: https://gitcode.com/gh_mirrors/fi/FineGrainedRLHF

1. 项目的目录结构及介绍

FineGrainedRLHF 项目的目录结构如下：

FineGrainedRLHF/
├── fgrlhf/
│   ├── reward_modeling/
│   ├── sft/
│   └── tasks/
│       └── qa_feedback/
│           ├── data/
│           ├── model_outputs/
│           └── training/
├── .gitignore
├── LICENSE
├── README.md
├── fgrlhf_logo.png
├── requirements.txt
└── setup.py

目录结构介绍

fgrlhf/: 项目的主要代码目录，包含奖励建模 (reward_modeling)、监督微调 (sft) 和任务 (tasks) 等子目录。
- reward_modeling/: 包含奖励模型的相关代码。
- sft/: 包含监督微调的相关代码。
- tasks/: 包含不同任务的代码，例如 qa_feedback 任务。
  - qa_feedback/: 长形式问答任务的代码，包含数据 (data)、模型输出 (model_outputs) 和训练脚本 (training)。
.gitignore: Git 忽略文件配置。
LICENSE: 项目许可证文件。
README.md: 项目介绍和使用说明。
fgrlhf_logo.png: 项目图标。
requirements.txt: 项目依赖包列表。
setup.py: 项目安装脚本。

2. 项目的启动文件介绍

项目的启动文件主要包括以下几个部分：

2.1 创建 Conda 环境

conda create --name py39 python=3.9
conda activate py39

2.2 克隆项目并安装依赖

git clone https://github.com/allenai/FineGrainedRLHF.git
cd FineGrainedRLHF
pip install -e .
python -m spacy download en_core_web_sm

2.3 运行任务

2.3.1 长形式问答任务

bash tasks/qa_feedback/training/train_sft.sh

2.3.2 奖励模型训练

bash tasks/qa_feedback/reward_modeling/train_rel_rm.sh
bash tasks/qa_feedback/reward_modeling/train_fact_rm.sh
bash tasks/qa_feedback/reward_modeling/train_comp_rm.sh

2.3.3 RLHF 训练

bash tasks/qa_feedback/training/train_baseline.sh
bash tasks/qa_feedback/training/train_finegrained.sh

3. 项目的配置文件介绍

项目的配置文件主要位于 tasks/[task_name]/training/ 目录下，例如 baseline_config.yml 和 fine_grained_config.yml。

3.1 `baseline_config.yml`

该配置文件用于设置整体 RLHF 训练的超参数，例如：

wandb_entity: "your_wandb_username"
mean: 0.5
std: 0.1

3.2 `fine_grained_config.yml`

该配置文件用于设置细粒度 RLHF 训练的超参数，例如：

wandb_entity: "your_wandb_username"
mean: 0.6
std: 0.2

3.3 修改配置文件

用户可以根据需要修改这些配置文件中的参数，例如修改 wandb_entity 为自己的 WandB 用户名，或者调整 mean 和 std 的值以适应不同的训练数据。

通过以上步骤，您可以顺利启动并配置 FineGrainedRLHF 项目，进行相关任务的训练和评估。

FineGrainedRLHF 项目地址: https://gitcode.com/gh_mirrors/fi/FineGrainedRLHF

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

FineGrainedRLHF 项目使用教程

FineGrainedRLHF 项目使用教程

1. 项目的目录结构及介绍

目录结构介绍

2. 项目的启动文件介绍

2.1 创建 Conda 环境

2.2 克隆项目并安装依赖

2.3 运行任务

2.3.1 长形式问答任务

2.3.2 奖励模型训练

2.3.3 RLHF 训练

3. 项目的配置文件介绍

3.1 baseline_config.yml

3.2 fine_grained_config.yml

3.3 修改配置文件

3.1 `baseline_config.yml`

3.2 `fine_grained_config.yml`