DeepScaleR 使用教程-优快云博客

DeepScaleR 使用教程

【免费下载链接】deepscaler Democratizing Reinforcement Learning for LLMs 项目地址: https://gitcode.com/gh_mirrors/dee/deepscaler

1. 项目介绍

DeepScaleR 是一个开源项目，旨在为大型语言模型（LLM）普及强化学习（RL）。该项目通过扩展 DeepSeek 的 GRPO 算法，支持从 8K 到 16K 再到 24K 的上下文长度，以提升模型在数学任务上的表现。DeepScaleR-1.5B-Preview 模型在 AIME 数据集上取得了 43.1% 的 Pass@1 准确率，超过了 O1-Preview 模型。

2. 项目快速启动

环境准备

推荐使用 Python 3.10。
确保安装了必要的依赖，可以通过以下命令安装：

cd deepscaler
pip install -e ./verl
pip install -e .

数据准备

原始训练数据位于 deepscaler/data/[train|test] 目录下。
使用预处理脚本将原始数据转换为 Parquet 文件：

python scripts/data/deepscaler_dataset.py

训练模型

对于单节点（8 GPU）训练，设置环境变量并运行以下命令：

export VLLM_ATTENTION_BACKEND=XFORMERS
export MODEL_PATH="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
./scripts/train/run_deepscaler_1.5b_8k.sh --model $MODEL_PATH

对于多节点（32 GPU）训练，首先在头节点上启动 Ray，然后在每个工作节点上连接到头节点，最后在头节点上运行训练脚本。

# 在头节点
export VLLM_ATTENTION_BACKEND=XFORMERS
ray start --head

# 在工作节点
export VLLM_ATTENTION_BACKEND=XFORMERS
ray start --address=[RAY_ADDRESS]

# 在头节点运行训练脚本
./scripts/train/run_deepscaler_1.5b_[16k|24k].sh --model [CHECKPOINT_PATH]

3. 应用案例和最佳实践

使用提供的评估脚本来生成样本并计算 Pass@1 准确率：

./scripts/eval/eval_model.sh --model [CHECKPOINT_PATH] --datasets [DATASET1] [DATASET2] --output-dir [OUTPUT_DIR]

查看模型的性能指标，例如在 AIME 2024、MATH 500、AMC 2023 等数据集上的表现。

4. 典型生态项目

DeepScaleR 是基于 DeepSeek-R1-Distill-Qwen-1.5B 模型进行训练的。
该项目的训练实验使用了经过大量修改的 verl 库，这是一个开源的 RLHF 库。
项目的研究工作是在 Berkeley Sky Computing Lab 和 Berkeley AI Research 的支持下完成的。

【免费下载链接】deepscaler Democratizing Reinforcement Learning for LLMs 项目地址: https://gitcode.com/gh_mirrors/dee/deepscaler

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考