使用 Python 从零构建 DeepSeek R1

DeepSeek R1 的整个训练过程,本质上就是在基础模型(即 deepseek V3)之上采用不同方式的强化学习。

从一个小型本地运行的基础模型开始,我们将基于 DeepSeek R1 技术报告从头构建所有内容,并在每个步骤中同步讲解相关理论。

目录

搭建基础环境

训练数据集

DeepSeek R1 训练快速概览

选择基础模型

强化学习设置中的策略模型(R)

R1 Zero 的 GRPO 算法

提示模板

预处理训练数据

奖励函数

Accuracy Reward

Format Reward

Reasoning Steps Reward

Cosine Scaled Reward

Repetition Penalty Reward

R1 Zero 的训练配置

GRPO Training Loop

Saving Tiny R1 Zero LLM

Two main problems with R1 Zero

Preparing Cold Start Data for SFT

长思维链的少样本提示

Direct Prompting

Post Processing Refinement

SFT Stage 1 With Cold Start Data

Stage 1 SFT Trainer Configs for R1

Stage 1 STF Training Loop

Saving Tiny R1 LLM

Reasoning-Oriented RL

Rejection Sampling

SFT Stage 2 Training

Distillation  


搭建基础环境

pip install -r requirements.txt
--extra-index-url https://download.pytorch.org/whl/cu118
torch
torchvision
torchaudio
transformers
datasets
accelerate
peft
trl
wandb
vllm
latex2sympy2_extended
math_verify

现在,让我们导入所需的库。

# Import necessary libraries
import logging
import os
import sys
import re
import math
from dataclasses import dataclass, field
from typing import List, Optional

# Import PyTorch and Hugging Face Transformers
import torch
import transformers
from transformers import (
    AutoModelF
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

runner000001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值