大模型训练与微调实战手册(以 Qwen 为例)，大模型入门到精通，收藏这篇就足够了！

大模型训练与微调实战指南

原创于 2025-09-09 11:37:27 发布 · 1k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自然语言处理 #langchain #LLM #RAGFlow #qwen3 #知识库

前序：

概念与流程：预训练 → 继续预训练（领域自适应） → 指令微调（SFT） → 偏好对齐（DPO/ORPO/KTO） → 强化学习对齐（PPO）。
可复用的代码模板：Hugging Face/TRL/PEFT、ms-swift 命令行。
LoRA/QLoRA 的落地做法（rank、target_modules、合并权重）。
数据格式与 chat 模板的关键坑位（Qwen 的 chat_template）。

说明

代码示例默认以 Qwen/Qwen2.5-7B(-Instruct) 为例。如果你已有 Qwen3 的 HuggingFace 权重，直接把 MODEL_ID 换成对应 id 即可。
GPU 建议：SFT/QLoRA 单卡 24–48GB 足够（batch 小一点 + 累积梯度）；PPO/DPO 视模型大小和数据量，一般多卡更舒适。
环境建议：transformers>=4.41, trl>=0.8, peft>=0.11, bitsandbytes>=0.43, datasets, accelerate, deepspeed（可选）。

一、训练全流程总览

预训练（Pretraining）

目标：大规模无监督自回归（next-token prediction），学习通用语言能力。
数据：网页、代码、书籍，多语种清洗、去重、毒性过滤。

继续预训练（Continued/Domain Adaptive Pretraining）

用你的领域语料（金融/法务/医疗/企业内部知识）对基础模型再训练数万步，提升领域覆盖与术语分布。

指令微调（SFT）

用指令-回答/对话样本教模型“按指令办事”。常配合 LoRA/QLoRA 降显存。

偏好对齐（Alignment）

DPO/ORPO/KTO/SimPO：用偏好对（preferred vs rejected）做直接对比优化。
RLHF（PPO/RLAIF/GRPO）：用奖励模型/规则/AI 反馈作为奖励信号做策略优化。

安全与工具能力

安全基座（拒答/去有害）、工具使用（函数调用）、检索增强（RAG）。

评测与蒸馏

任务集评测（MMLU、C-Eval、GSM8K、AlignBench 等），蒸馏成小模型部署。

二、环境安装（通用）

# 基础依赖

三、继续预训练（领域自适应 Pretraining）
适合你已有一批纯文本/代码语料，想让基础模型更懂你的领域。

数据准备（举例）

data/train.txt 与 data/val.txt：每行一段原始文本（已清洗去重）。

代码（Hugging Face Trainer）

import os, torch

要点

继续预训练用“base”模型（非 Instruct）更合适。
启用 packing（group_texts）能显著提高吞吐。
大模型建议配合 DeepSpeed ZeRO-2/3、多卡和梯度检查点。

四、指令微调 SFT（LoRA/QLoRA）
数据格式（推荐 messages 格式，方便套 chat_template）

train.jsonl（每行一个样本）：

{"messages":[

代码（TRL + PEFT，QLoRA）

import torch

合并 LoRA（推理部署更方便）

import torch

要点

target_modules 对 Qwen/LLaMA 系列常见投影层足够；实际以模型结构为准可做微调。
QLoRA 推荐 r=16/32，learning_rate 2e-4~5e-5 视 batch/任务而定。
数据用 messages + chat_template 能避免标签错位、特殊 token 漏标等坑。

五、用 ms-swift 快速上手（SFT / DPO）
提示：不同版本的 ms-swift CLI 参数略有差异，建议先执行 swift -h 或 swift sft -h 查看你本地版本帮助。下面给出常见用法范式（以 2.x 为例）。

安装

pip install -U "ms-swift[llm]" modelscope

SFT（LoRA/QLoRA）

# 假设 data/train.jsonl 是上文 messages 格式

DPO（偏好对齐，使用 prompt/choice 对）

数据 dpo.jsonl（每行）：

{"prompt":"请写一段自我介绍","chosen":"我是一个乐观...","rejected":"我是个不靠谱..."}

swift dpo \

合并 LoRA

swift export \

备注

ms-swift 还支持 ORPO/KTO/GRPO/SimPO、全参/部分层微调、Deepspeed/FSDP，一行命令即可切换策略。
如果你的 ms-swift 本地帮助与上面不一致，以本地 -h 为准。

六、偏好对齐：DPO（Hugging Face TRL 版）
适合有成对偏好数据（prompt, chosen, rejected），可在 SFT 基础上再优化。

import torch

要点

DPO 对 LR 更敏感，建议 5e-6~2e-5。
数据质量很关键：prompt 明确、chosen/rejected 差异清晰。

七、强化学习对齐：PPO（TRL）
PPO 需要一个“奖励函数”。真实场景常用专门的 Reward Model（例如对 helpfulness/harmlessness 的打分）。这里给一个可跑通的演示版，用情感模型（正面=高分）代替。你可以替换为自己的 RM。

import torch, random

要点

真实对齐要用与你任务匹配的 Reward Model（如中文对齐 RM、规则奖励或 RLAIF）。
控制 KL（target_kl）避免模型崩坏；LR、采样温度、奖励量纲都很关键。
PPO 显存较吃，建议小 batch + 累积，必要时 LoRA 化 PPO（进阶用法）。

八、评测、部署与常见坑

评测

综合：MMLU（中英）、C-Eval（中文学科）、GSM8K（数学）、BBH、AlignBench（对齐）。
指标：准确率、长度、拒答率（安全）、幻觉率（可人工/自动评测结合）。

部署

vLLM 高吞吐推理；支持 LoRA 热插拔、KV Cache、连续批处理。
量化：AWQ/GPTQ（离线），bitsandbytes（在线 8/4bit）。

常见坑

Chat 模板：messages → apply_chat_template 必须一致，训练/推理同模板。
标签错位：SFT 时确保只有 assistant 段落有 label，prompt 部分 label 应该是 -100（用模板正确构造可避免）。
Max length 截断：训练/生成的 max_length 与模型 rope/rope_scaling 要一致。
LoRA 目标层：不同架构名称可能略有不同，先 print(model) 或参考官方配置。
数据清洗：去重、去噪、脱敏；不良样本少量也会严重拖后腿。

九、结尾

你是更偏好用 ms-swift 一键训练，还是 Hugging Face/TRL 写代码流？
你的 GPU 配置（型号/显存/卡数）和大概数据规模是怎样的？我可以按你的资源把 batch、累积、rank、是否 QLoRA 等超参调到更稳妥。
如果你有现成的样本，我可以帮你把数据转换成 messages 或 DPO 所需的 prompt/chosen/rejected 格式，并给出针对你任务的奖励函数设计建议。

大模型算是目前当之无愧最火的一个方向了，算是新时代的风口！有小伙伴觉得，作为新领域、新方向人才需求必然相当大，与之相应的人才缺乏、人才竞争自然也会更少，那转行去做大模型是不是一个更好的选择呢？是不是更好就业呢？是不是就暂时能抵抗35岁中年危机呢？

答案当然是这样，大模型必然是新风口！