DeepScaleR 使用教程

DeepScaleR 使用教程

【免费下载链接】deepscaler Democratizing Reinforcement Learning for LLMs 【免费下载链接】deepscaler 项目地址: https://gitcode.com/gh_mirrors/dee/deepscaler

1. 项目介绍

DeepScaleR 是一个开源项目,旨在为大型语言模型(LLM)普及强化学习(RL)。该项目通过扩展 DeepSeek 的 GRPO 算法,支持从 8K 到 16K 再到 24K 的上下文长度,以提升模型在数学任务上的表现。DeepScaleR-1.5B-Preview 模型在 AIME 数据集上取得了 43.1% 的 Pass@1 准确率,超过了 O1-Preview 模型。

2. 项目快速启动

环境准备

  • 推荐使用 Python 3.10。
  • 确保安装了必要的依赖,可以通过以下命令安装:
cd deepscaler
pip install -e ./verl
pip install -e .

数据准备

  • 原始训练数据位于 deepscaler/data/[train|test] 目录下。
  • 使用预处理脚本将原始数据转换为 Parquet 文件:
python scripts/data/deepscaler_dataset.py

训练模型

  • 对于单节点(8 GPU)训练,设置环境变量并运行以下命令:
export VLLM_ATTENTION_BACKEND=XFORMERS
export MODEL_PATH="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
./scripts/train/run_deepscaler_1.5b_8k.sh --model $MODEL_PATH
  • 对于多节点(32 GPU)训练,首先在头节点上启动 Ray,然后在每个工作节点上连接到头节点,最后在头节点上运行训练脚本。
# 在头节点
export VLLM_ATTENTION_BACKEND=XFORMERS
ray start --head

# 在工作节点
export VLLM_ATTENTION_BACKEND=XFORMERS
ray start --address=[RAY_ADDRESS]

# 在头节点运行训练脚本
./scripts/train/run_deepscaler_1.5b_[16k|24k].sh --model [CHECKPOINT_PATH]

3. 应用案例和最佳实践

  • 使用提供的评估脚本来生成样本并计算 Pass@1 准确率:
./scripts/eval/eval_model.sh --model [CHECKPOINT_PATH] --datasets [DATASET1] [DATASET2] --output-dir [OUTPUT_DIR]
  • 查看模型的性能指标,例如在 AIME 2024、MATH 500、AMC 2023 等数据集上的表现。

4. 典型生态项目

  • DeepScaleR 是基于 DeepSeek-R1-Distill-Qwen-1.5B 模型进行训练的。
  • 该项目的训练实验使用了经过大量修改的 verl 库,这是一个开源的 RLHF 库。
  • 项目的研究工作是在 Berkeley Sky Computing Lab 和 Berkeley AI Research 的支持下完成的。

【免费下载链接】deepscaler Democratizing Reinforcement Learning for LLMs 【免费下载链接】deepscaler 项目地址: https://gitcode.com/gh_mirrors/dee/deepscaler

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值