手把手教你：拿到 DeepSeek-V3 后怎么启动和微调（大白话版）

最新推荐文章于 2025-08-31 03:12:27 发布

原创最新推荐文章于 2025-08-31 03:12:27 发布 · 926 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能

大模型专栏收录该内容

4 篇文章

订阅专栏

先搞懂两个核心问题：

“启动模型” ：就像打开一个复杂的软件，让模型能在你电脑上 “说话”“回答问题”。
“微调训练” ：就像给模型 “补课”—— 用你自己的资料（比如特定领域的问答、公司内部知识）让它更擅长某类任务（比如只回答医学问题、只懂法律条文）。

一、准备工作：你需要这些 “装备”

在开始之前，得先确认你的电脑能不能跑起来这个模型（这模型很大，普通电脑可能扛不住）。

1. 硬件要求（重点！）

显卡：必须是 NVIDIA 的高端显卡（比如 H800、A100 这种，普通游戏本的显卡基本不行）。原因是这模型太大了（相当于几十亿本书的知识），需要显卡有超大的 “记忆”（显存）和超快的计算能力。
电脑系统：只能用 Linux 系统（比如 Ubuntu），Windows 或 Mac 系统暂时不支持（很多工具只认 Linux）。

2. 软件准备

装个 Python 3.10（一种编程语言，模型运行靠它）。
装个 “命令行工具”（就像电脑的 “记事本”，但能输入命令控制电脑），Linux 系统自带，直接用就行。

二、把代码和模型 “搬” 到自己电脑上

就像你想玩一个游戏，得先把游戏安装包下载到电脑里。

1. 复制代码（克隆仓库）

打开命令行，输入下面的命令（一行一行输，输完按回车）：

# 这行是把网上的代码复制到你电脑里
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
# 这行是进入复制好的代码文件夹（就像打开电脑里的一个文件夹）
cd DeepSeek-V3

2. 下载模型 “知识库”（模型权重）

模型能回答问题，靠的是它 “学过的知识”，这些知识存在 “模型权重” 文件里（很大，总大小差不多 700GB）。
有两种方式下载：

简单方式：先装个工具，再直接下载（命令行里输）：

# 装下载工具
pip install huggingface-hub
# 下载模型（把后面的“/path/to/...”换成你想存的文件夹，比如“/home/我的模型”）
huggingface-cli download deepseek-ai/DeepSeek-V3 --local-dir /path/to/我的模型

备用方式：如果上面的命令卡壳，直接去这个网站手动下载（需要注册个账号，就像下载大文件一样）。

三、启动模型：让它在你电脑上 “跑起来”

这里教你最简单的方法 —— 用官方自带的 “演示工具” 启动，能快速让模型回答问题。

1. 安装 “辅助工具”（让模型能运行的依赖）

就像玩游戏需要先装 “运行库”，模型也需要一些工具支持。在命令行里输：

# 进入模型的“推理文件夹”（专门负责让模型回答问题的代码在这里）
cd inference
# 安装需要的工具（会自动下载一堆文件，等几分钟）
pip install -r requirements.txt

2. 转换模型格式（让模型 “认得出” 你的电脑）

下载的模型文件格式比较特殊，需要转成演示工具能直接用的格式。命令行里输：

python convert.py \
  --hf-ckpt-path /path/to/我的模型 \  # 这里填你刚才下载模型的文件夹路径
  --save-path /path/to/转换后模型 \    # 这里填转换后想存的文件夹（自己随便起）
  --n-experts 256 \                    # 不用改，模型固定参数
  --model-parallel 16                  # 如果你有16块显卡就填16，不够就填你有的数量（最少8块）

等它跑完（可能要几十分钟，看电脑速度），就得到了 “能用的模型”。

3. 启动模型，开始聊天！

最后一步：让模型跑起来，和你对话。命令行里输：

# 让多块显卡一起工作（node-rank填0，master-addr填你电脑的IP，不知道就填127.0.0.1）
torchrun --nnodes 1 --nproc-per-node 8 \
  --node-rank 0 --master-addr 127.0.0.1 \
  generate.py \
  --ckpt-path /path/to/转换后模型 \  # 填刚才转换后的模型文件夹
  --config configs/config_671B.json \ # 不用改，模型配置文件
  --interactive \                     # 这个参数是“开启聊天模式”
  --temperature 0.7 \                 # 模型回答的“灵活度”（0-1之间，越高越随机）
  --max-new-tokens 200                # 模型一次最多说200个字

等启动完成（可能要几分钟），命令行会出现输入框，你就可以打字问它问题了（比如 “你好”），它会自动回答。

四、微调训练：给模型 “补课”

如果你想让模型更懂某类知识（比如只回答电商问题），就需要 “微调”。

1. 准备 “补课资料”（数据集）

就像给学生补课需要教材，你得准备一批 “问题 - 答案” 对，比如：

{
  "问题": "电商里的“7天无理由退货”是什么意思？",
  "答案": "指买家收到商品后7天内，不影响二次销售的情况下可以无理由退货。"
}

把这些内容存成一个 json 文件（比如叫 “电商知识.json”），放一个文件夹里。

2. 用工具开始 “补课”

这里用最常用的工具（Hugging Face 的训练工具），步骤很简单：

（1）先把模型 “调出来”

在代码里写一段简单的程序（可以用记事本写，存成 train.py）：

# 加载模型（就像把学生叫到教室）
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
  "/path/to/转换后模型",  # 转换后的模型路径
  device_map="auto"  # 自动让显卡工作
)
tokenizer = AutoTokenizer.from_pretrained("/path/to/转换后模型")  # 加载“翻译器”（把文字转成模型能懂的格式）

（2）把你的资料 “喂” 给模型

继续在程序里加代码，处理你的 “补课资料”：

# 加载你的数据集（就像把教材递给学生）
from datasets import load_dataset
dataset = load_dataset("json", data_files="/path/to/电商知识.json")["train"]

# 整理资料格式（让模型能看懂）
def format_data(sample):
  return {"text": f"问题：{sample['问题']}\n答案：{sample['答案']}"}
dataset = dataset.map(format_data)  # 把资料转成模型能读的格式

（3）设置 “补课计划”（训练参数）

就像安排每天学多久、学几遍：

from transformers import TrainingArguments, Trainer
training_args = TrainingArguments(
  output_dir="./补课后的模型",  # 补完课的模型存在这里
  per_device_train_batch_size=4,  # 每次学4个问题（根据显卡内存调，别太大）
  gradient_accumulation_steps=8,  # 每学8次算一次“作业”
  learning_rate=2e-5,  # 学习速度（别改，新手用这个值刚好）
  num_train_epochs=3,  # 学3遍（资料少就多学几遍，资料多就少学）
  fp16=True  # 用高效模式计算（省时间）
)

（4）开始 “补课”

最后运行程序，让模型学习你的资料：


# 启动训练（就像按下“开始补课”按钮）
trainer = Trainer(
  model=model,
  args=training_args,
  train_dataset=dataset,
  tokenizer=tokenizer
)
trainer.train()  # 开始学习，等它跑完（可能几小时到几天，看资料多少）