
DeepSeek R1 的整个训练过程,本质上就是在基础模型(即 deepseek V3)之上采用不同方式的强化学习。
从一个小型本地运行的基础模型开始,我们将基于 DeepSeek R1 技术报告从头构建所有内容,并在每个步骤中同步讲解相关理论。
目录
Two main problems with R1 Zero
Preparing Cold Start Data for SFT
SFT Stage 1 With Cold Start Data
Stage 1 SFT Trainer Configs for R1
搭建基础环境
pip install -r requirements.txt
--extra-index-url https://download.pytorch.org/whl/cu118
torch
torchvision
torchaudio
transformers
datasets
accelerate
peft
trl
wandb
vllm
latex2sympy2_extended
math_verify
现在,让我们导入所需的库。
# Import necessary libraries
import logging
import os
import sys
import re
import math
from dataclasses import dataclass, field
from typing import List, Optional
# Import PyTorch and Hugging Face Transformers
import torch
import transformers
from transformers import (
AutoModelF

订阅专栏 解锁全文
2150

被折叠的 条评论
为什么被折叠?



