你可能听过:
- 预训练数据
- 指令微调数据(SFT)
- CoT 数据
- 偏好数据(RM)
- 强化学习数据(RLHF)
- AI 反馈数据(RLAIF)
- 专项任务数据(如 SQL/代码/RAG)
但这些名词如果没有“数据长什么样”的具体示例,其实依然抽象。
这篇文章,将系统带你看清楚:
大模型不同训练阶段的数据到底是什么样的?每种格式解决什么问题?行业最新实践是什么?
1. 预训练数据(Pre-training):最原始、最海量、最便宜
预训练就是让模型“先学会读写”,数据是无标注、连续文本。
✔ 示例(自然语言补全文本)
量子纠缠是量子力学中的一种重要现象,指两个或多个粒子在空间上分离后仍然保持某种关联性。当对其中一个粒子进行测量时...
模型任务:预测下一个 token。
✔ 示例(百科/网页清洗后)
标题:光合作用的基本过程正文:光合作用是绿色植物利用阳光,将二氧化碳和水转化为葡萄糖并释放氧气的过程。该过程主要分为光反应和暗反应...
✔ 示例(代码预训练)
def sum(a, b): return a + b
✔ 示例(社交媒体文本)
今天第一次用上新的 AI 绘图工具,效果真的不错,就是生成有点慢...
预训练解决的问题
- 基础语言能力
- 语法逻辑
- 世界知识
- 多语言能力
- •内容连贯性
2. 指令微调(SFT):教模型“听懂人类指令”
SFT 是让模型从“语言模型”变成“聊天助手”的关键。
✔ 示例(Instruction 格式)
{ "instruction": "用通俗的语言解释什么是过拟合。", "input": "", "output": "过拟合指模型在训练集上表现很好,但在新数据上表现很差。因为模型把训练数据里的噪声也当成规律记住了。"}
✔ 示例(多轮对话格式)
[ {"role": "user", "content": "光合作用是什么?"}, {"role": "assistant", "content": "光合作用是植物利用光能合成养分的过程。"}, {"role": "user", "content": "能不能再详细一点?"}, {"role": "assistant", "content": "当然可以。光合作用分为光反应和暗反应两个阶段..."}]
✔ 示例(加入链式推理 CoT)
{ "instruction": "计算:38 × 27", "output": "第一步,将 38 和 27 分解:38 = 30 + 8,27 = 20 + 7。\n第二步,分别相乘:30×20 = 600,30×7 = 210,8×20 = 160,8×7 = 56。\n第三步,求和:600 + 210 + 160 + 56 = 1026。"}
SFT 解决的问题
- 明确指令 → 回答逻辑
- 对话能力
- 防止模型胡言乱语
- 为结构化任务做准备
3. 专项任务训练数据:让模型“能干活”
包括 text2sql、数学推理、代码生成、RAG 等垂直任务。
✔ 示例(Text2SQL)
{ "instruction": "查询年龄超过 30 岁的员工姓名。", "schema": "表 employee(id, name, age, dept)", "output": "SELECT name FROM employee WHERE age > 30;"}
✔ 示例(生成型 RAG 数据:HyDE 风格)
{ "query": "澳大利亚的首都是哪里?", "pseudo_document": "澳大利亚的首都是堪培拉,位于澳大利亚东南部,是联邦政府所在地。", "answer": "堪培拉"}
✔ 示例(代码修复任务)
{ "instruction": "修复下面函数中的错误。", "input": "def add(a, b): return a - b", "output": "def add(a, b): return a + b"}
专项任务数据直接影响模型的行业落地能力。
4. 奖励模型(RM)数据:告诉模型“哪个回答更好”
RM 数据采用成对比较,是 RLHF 的基础。
✔ 示例(Pairwise)
{ "prompt": "解释为什么天空是蓝色的。", "better_response": "天空呈蓝色是因为阳光中的蓝色光更容易被大气分子散射,这种现象称为瑞利散射。", "worse_response": "因为天空本来就是蓝色的。"}
RM 学到的是:在同一个 Prompt 下 A 优于 B。
5. RLHF / PPO 数据:模型在奖励驱动下“自我提升”
RLHF 训练数据不直接保存为文件,但流程数据可概念化为:
{ "prompt": "给我一些提升睡眠质量的建议。", "model_output": "你可以保持固定睡眠时间、减少咖啡因摄入、睡前避免电子设备...", "reward": 0.86}
最终不是训练数据推动模型,而是“策略优化”推动模型。
6. RLAIF(AI 反馈)数据:用 AI 自动做偏好评价
2024–2025 最重要趋势:AI 替代人类标注。
✔ 示例(AI Judge 格式)
{ "prompt": "为什么要学习编程?", "assistant_response": "编程是一种解决问题的能力,可以让你自动化任务、构建产品并提升逻辑思维能力。", "ai_score": 0.91}
它通过规则/多模型投票给分,大幅降低标注成本。
7. 行业趋势
| 训练阶段 | 2023 特点 | 最新趋势 |
|---|---|---|
| 预训练 | 真实网页文本 | 加入大规模合成语料、知识蒸馏语料 |
| SFT | QA 为主 | CoT、高结构化任务占比激增 |
| RLHF | 人类偏好 | AI 反馈(RLAIF)为主流 |
| RM | 单目标 | 多目标收益:安全性+事实性+逻辑性 |
| 专项任务 | 任务少 | 数学、代码、SQL 等专项库快速扩大 |
模型进步的核心原因:
不仅是模型结构,而是更好的数据工程(Data Engineering)。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】


被折叠的 条评论
为什么被折叠?



