使用 Python 从零构建 DeepSeek R1

原创已于 2025-08-04 16:44:47 修改 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #人工智能 #pytorch #深度学习

于 2025-08-04 16:44:17 首次发布

低成本大语言模型实战同时被 2 个专栏收录

32 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

DeepSeek从零构建实战

1 篇文章

订阅专栏

DeepSeek R1 的整个训练过程，本质上就是在基础模型（即 deepseek V3）之上采用不同方式的强化学习。

从一个小型本地运行的基础模型开始，我们将基于 DeepSeek R1 技术报告从头构建所有内容，并在每个步骤中同步讲解相关理论。

Reasoning Steps Reward

Cosine Scaled Reward

Repetition Penalty Reward

R1 Zero 的训练配置

GRPO Training Loop

Saving Tiny R1 Zero LLM

Two main problems with R1 Zero

Preparing Cold Start Data for SFT

长思维链的少样本提示

Direct Prompting

Post Processing Refinement

SFT Stage 1 With Cold Start Data

Stage 1 SFT Trainer Configs for R1

Stage 1 STF Training Loop

Saving Tiny R1 LLM

Reasoning-Oriented RL

Rejection Sampling

SFT Stage 2 Training

Distillation

搭建基础环境

pip install -r requirements.txt

--extra-index-url https://download.pytorch.org/whl/cu118
torch
torchvision
torchaudio
transformers
datasets
accelerate
peft
trl
wandb
vllm
latex2sympy2_extended
math_verify

现在，让我们导入所需的库。

# Import necessary libraries
import logging
import os
import sys
import re
import math
from dataclasses import dataclass, field
from typing import List, Optional

# Import PyTorch and Hugging Face Transformers
import torch
import transformers
from transformers import (
    AutoModelF