DeepScaleR 使用教程
1. 项目介绍
DeepScaleR 是一个开源项目,旨在为大型语言模型(LLM)普及强化学习(RL)。该项目通过扩展 DeepSeek 的 GRPO 算法,支持从 8K 到 16K 再到 24K 的上下文长度,以提升模型在数学任务上的表现。DeepScaleR-1.5B-Preview 模型在 AIME 数据集上取得了 43.1% 的 Pass@1 准确率,超过了 O1-Preview 模型。
2. 项目快速启动
环境准备
- 推荐使用 Python 3.10。
- 确保安装了必要的依赖,可以通过以下命令安装:
cd deepscaler
pip install -e ./verl
pip install -e .
数据准备
- 原始训练数据位于
deepscaler/data/[train|test]目录下。 - 使用预处理脚本将原始数据转换为 Parquet 文件:
python scripts/data/deepscaler_dataset.py
训练模型
- 对于单节点(8 GPU)训练,设置环境变量并运行以下命令:
export VLLM_ATTENTION_BACKEND=XFORMERS
export MODEL_PATH="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
./scripts/train/run_deepscaler_1.5b_8k.sh --model $MODEL_PATH
- 对于多节点(32 GPU)训练,首先在头节点上启动 Ray,然后在每个工作节点上连接到头节点,最后在头节点上运行训练脚本。
# 在头节点
export VLLM_ATTENTION_BACKEND=XFORMERS
ray start --head
# 在工作节点
export VLLM_ATTENTION_BACKEND=XFORMERS
ray start --address=[RAY_ADDRESS]
# 在头节点运行训练脚本
./scripts/train/run_deepscaler_1.5b_[16k|24k].sh --model [CHECKPOINT_PATH]
3. 应用案例和最佳实践
- 使用提供的评估脚本来生成样本并计算 Pass@1 准确率:
./scripts/eval/eval_model.sh --model [CHECKPOINT_PATH] --datasets [DATASET1] [DATASET2] --output-dir [OUTPUT_DIR]
- 查看模型的性能指标,例如在 AIME 2024、MATH 500、AMC 2023 等数据集上的表现。
4. 典型生态项目
- DeepScaleR 是基于 DeepSeek-R1-Distill-Qwen-1.5B 模型进行训练的。
- 该项目的训练实验使用了经过大量修改的 verl 库,这是一个开源的 RLHF 库。
- 项目的研究工作是在 Berkeley Sky Computing Lab 和 Berkeley AI Research 的支持下完成的。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



