FineGrainedRLHF 项目使用教程

FineGrainedRLHF 项目使用教程

FineGrainedRLHF FineGrainedRLHF 项目地址: https://gitcode.com/gh_mirrors/fi/FineGrainedRLHF

1. 项目的目录结构及介绍

FineGrainedRLHF 项目的目录结构如下:

FineGrainedRLHF/
├── fgrlhf/
│   ├── reward_modeling/
│   ├── sft/
│   └── tasks/
│       └── qa_feedback/
│           ├── data/
│           ├── model_outputs/
│           └── training/
├── .gitignore
├── LICENSE
├── README.md
├── fgrlhf_logo.png
├── requirements.txt
└── setup.py

目录结构介绍

  • fgrlhf/: 项目的主要代码目录,包含奖励建模 (reward_modeling)、监督微调 (sft) 和任务 (tasks) 等子目录。
    • reward_modeling/: 包含奖励模型的相关代码。
    • sft/: 包含监督微调的相关代码。
    • tasks/: 包含不同任务的代码,例如 qa_feedback 任务。
      • qa_feedback/: 长形式问答任务的代码,包含数据 (data)、模型输出 (model_outputs) 和训练脚本 (training)。
  • .gitignore: Git 忽略文件配置。
  • LICENSE: 项目许可证文件。
  • README.md: 项目介绍和使用说明。
  • fgrlhf_logo.png: 项目图标。
  • requirements.txt: 项目依赖包列表。
  • setup.py: 项目安装脚本。

2. 项目的启动文件介绍

项目的启动文件主要包括以下几个部分:

2.1 创建 Conda 环境

conda create --name py39 python=3.9
conda activate py39

2.2 克隆项目并安装依赖

git clone https://github.com/allenai/FineGrainedRLHF.git
cd FineGrainedRLHF
pip install -e .
python -m spacy download en_core_web_sm

2.3 运行任务

2.3.1 长形式问答任务
bash tasks/qa_feedback/training/train_sft.sh
2.3.2 奖励模型训练
bash tasks/qa_feedback/reward_modeling/train_rel_rm.sh
bash tasks/qa_feedback/reward_modeling/train_fact_rm.sh
bash tasks/qa_feedback/reward_modeling/train_comp_rm.sh
2.3.3 RLHF 训练
bash tasks/qa_feedback/training/train_baseline.sh
bash tasks/qa_feedback/training/train_finegrained.sh

3. 项目的配置文件介绍

项目的配置文件主要位于 tasks/[task_name]/training/ 目录下,例如 baseline_config.ymlfine_grained_config.yml

3.1 baseline_config.yml

该配置文件用于设置整体 RLHF 训练的超参数,例如:

wandb_entity: "your_wandb_username"
mean: 0.5
std: 0.1

3.2 fine_grained_config.yml

该配置文件用于设置细粒度 RLHF 训练的超参数,例如:

wandb_entity: "your_wandb_username"
mean: 0.6
std: 0.2

3.3 修改配置文件

用户可以根据需要修改这些配置文件中的参数,例如修改 wandb_entity 为自己的 WandB 用户名,或者调整 meanstd 的值以适应不同的训练数据。

通过以上步骤,您可以顺利启动并配置 FineGrainedRLHF 项目,进行相关任务的训练和评估。

FineGrainedRLHF FineGrainedRLHF 项目地址: https://gitcode.com/gh_mirrors/fi/FineGrainedRLHF

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

虞怀灏Larina

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值