FineGrainedRLHF 项目使用教程
FineGrainedRLHF 项目地址: https://gitcode.com/gh_mirrors/fi/FineGrainedRLHF
1. 项目的目录结构及介绍
FineGrainedRLHF 项目的目录结构如下:
FineGrainedRLHF/
├── fgrlhf/
│ ├── reward_modeling/
│ ├── sft/
│ └── tasks/
│ └── qa_feedback/
│ ├── data/
│ ├── model_outputs/
│ └── training/
├── .gitignore
├── LICENSE
├── README.md
├── fgrlhf_logo.png
├── requirements.txt
└── setup.py
目录结构介绍
- fgrlhf/: 项目的主要代码目录,包含奖励建模 (
reward_modeling
)、监督微调 (sft
) 和任务 (tasks
) 等子目录。- reward_modeling/: 包含奖励模型的相关代码。
- sft/: 包含监督微调的相关代码。
- tasks/: 包含不同任务的代码,例如
qa_feedback
任务。- qa_feedback/: 长形式问答任务的代码,包含数据 (
data
)、模型输出 (model_outputs
) 和训练脚本 (training
)。
- qa_feedback/: 长形式问答任务的代码,包含数据 (
- .gitignore: Git 忽略文件配置。
- LICENSE: 项目许可证文件。
- README.md: 项目介绍和使用说明。
- fgrlhf_logo.png: 项目图标。
- requirements.txt: 项目依赖包列表。
- setup.py: 项目安装脚本。
2. 项目的启动文件介绍
项目的启动文件主要包括以下几个部分:
2.1 创建 Conda 环境
conda create --name py39 python=3.9
conda activate py39
2.2 克隆项目并安装依赖
git clone https://github.com/allenai/FineGrainedRLHF.git
cd FineGrainedRLHF
pip install -e .
python -m spacy download en_core_web_sm
2.3 运行任务
2.3.1 长形式问答任务
bash tasks/qa_feedback/training/train_sft.sh
2.3.2 奖励模型训练
bash tasks/qa_feedback/reward_modeling/train_rel_rm.sh
bash tasks/qa_feedback/reward_modeling/train_fact_rm.sh
bash tasks/qa_feedback/reward_modeling/train_comp_rm.sh
2.3.3 RLHF 训练
bash tasks/qa_feedback/training/train_baseline.sh
bash tasks/qa_feedback/training/train_finegrained.sh
3. 项目的配置文件介绍
项目的配置文件主要位于 tasks/[task_name]/training/
目录下,例如 baseline_config.yml
和 fine_grained_config.yml
。
3.1 baseline_config.yml
该配置文件用于设置整体 RLHF 训练的超参数,例如:
wandb_entity: "your_wandb_username"
mean: 0.5
std: 0.1
3.2 fine_grained_config.yml
该配置文件用于设置细粒度 RLHF 训练的超参数,例如:
wandb_entity: "your_wandb_username"
mean: 0.6
std: 0.2
3.3 修改配置文件
用户可以根据需要修改这些配置文件中的参数,例如修改 wandb_entity
为自己的 WandB 用户名,或者调整 mean
和 std
的值以适应不同的训练数据。
通过以上步骤,您可以顺利启动并配置 FineGrainedRLHF 项目,进行相关任务的训练和评估。
FineGrainedRLHF 项目地址: https://gitcode.com/gh_mirrors/fi/FineGrainedRLHF
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考