【必看收藏】大模型训练全流程详解:从预训练、微调到强化学习三阶段指南

本文详解了类GPT大模型的三大训练阶段:预训练阶段通过海量文本学习语言规律和常识;有监督微调阶段让模型遵循人类指令,提升对话、分类等任务能力;强化学习阶段通过奖励模型和PPO算法优化输出,使其更符合人类偏好。整个过程如同人类学习:先广泛阅读,再专业指导,最后模拟考试优化,最终形成博学可靠的智能助手。

1、Pre-train 预训练阶段

目标

让大模型学会“说话”,掌握人类语言的基本规律、常识和世界知识。它要知道“猫会抓老鼠”、“北京是中国的首都”、“如何组织一个通顺的句子”这类海量的基础信息。

核心任务

玩“猜词游戏”,预测下一个字是什么?例如我给你一句话的前半部分,比如“今天天气真…”,然后让你猜下一个最可能出现的词是什么(比如“好”、“热”、“糟糕”)。GPT在预训练阶段,就是在疯狂地玩这个“猜词游戏”。

它怎么玩的?

  • 大模型会“阅读”海量的文本(比如一个网页、一本书的一章、一段对话)。
  • 它会遮住文本中间的某些词(或者遮住一句话最后几个词)。
  • 然后,它的任务就是根据遮住词前面所有的词(上下文),努力去预测那个被遮住的词最可能是什么。
  • 比如:输入 “猫喜欢吃 ”, 它要努力猜出 “鱼” 的可能性最高。

训练数据有哪些?

  1. 互联网网页: 新闻、博客、论坛帖子、公司网站等等。这提供了最广泛的语言模式和现实世界知识。感兴趣可以了解一下Common Crawl项目。

  2. 书籍: 各种电子书,小说、非小说、教科书等。这提供了更规范、更深入、更有逻辑结构的语言表达。

  3. 百科知识: 像维基百科这样结构化的知识库。这对学习事实性信息、概念定义、事物关系特别重要。

  4. 其他来源: 一些代码(如 GitHub 上的公开代码)、科技论文摘要、特定领域的文档等,以增加多样性。

    当然,不是所有数据都进行使用,数据清洗非常重要,OpenAI 投入巨大精力进行去重、过滤低质/有害内容、标准化格式。

数据量

关键词:词元(Token),可以理解为大模型学习人类文字的最小单位。比如“ChatGPT”可能被拆成 【“Chat”、“G”、“PT”】3个Tokens。

GPT3的训练数据集

499 Billion Tokens 经过清洗后用了300 Billion Tokens ,即3000亿个Tokens,这个数据究竟有多大?具象化一下:

假如1个中文等于2个Tokens, 一部红楼梦大约73万字,那3000亿个tokens 大概是20.5万部红楼梦

如果读一部红楼梦需要4.5天,那读完20.5万部红楼梦就需要2500多年,那就是要从春秋战国时期阅读到今天。

联合概率

联合概率是大模型预测下一个字的核心,前面说到大模型玩的是猜词游戏,联合概率可以理解为大模型在学习 “哪些词经常一起出现” 以及 “在什么情况下,下一个词最可能是什么” 的规律。它通过玩无数次的猜词游戏,积累了庞大的数据库。

举个例子:

当输入“猫吃”时,大模型会扫描所有可能的第三个词(鱼、肉、草、手机...),计算:

P(鱼 | 猫, 吃) = “在「猫吃」后面出现「鱼」”的概率

关键公式(条件概率):

P(鱼 | 猫, 吃) = P(猫, 吃, 鱼) / P(猫, 吃)

计算过程:

1.从数据中查:

  • P(猫, 吃, 鱼) = 0.00001%

    (“猫吃鱼”的联合概率)

  • P(猫, 吃) = 0.1%

    (“猫吃”出现的概率)

2.结果:

P(鱼 | 猫, 吃) = 0.00001% / 0.1% = 0.01%

3.同理算出其他词的概率:

P(肉 | 猫, 吃) = 0.005%

P(草 | 猫, 吃) = 0.0001%

4.若大模型选择概率最高的词 → 输出“鱼”!

训练效果

这个阶段出来的大模型已经阅读和学习了大量资料,是个“书呆子”,这个阶段大模型能做好任务的能力有限,续写是或者填空是他现阶段能做好的事情。

思考

1、大模型“幻觉“是什么?为什么会有大模型幻觉?

2、联合概率是根据训练数据获得的能力,那大模型为什么能解答没见过的问题?

2、SFT(Supervised Fine-Tuning)有监督微调

按照人类要求和思维方式进行做任务。之前说到预训练出来的大模型除了能做好续写任务,其他的任务都表现得不稳定。这个SFT阶段之后就是让大模型能按人类的要求和思维方式去做任务。

核心任务

如果未来你希望做什么类型的任务,就用什么样的数据去做“指令微调(Instruction Tuning)”,如对话任务、分类任务、判断任务、推理任务、代码生成任务。

举个例子:

  • 对话任务,要大模型学会对话,特别是多轮对话,让AI理解对话上下文,生成自然、连贯的回复
[指令] 扮演客服,处理用户对快递延误的投诉
[对话记录]
用户: 我的快递三天没更新了!
AI: 抱歉给您带来困扰!请提供运单号,我立刻查询。(*引导关键信息*)
用户: SF123456789
AI: 查询到包裹滞留杭州中转站,因大雾延误。已加急处理,预计明早送达。(*主动提供解决方案*)
用户: 明天送不到怎么办?
AI: 若未送达,我们将补偿20元优惠券。您看可以吗?(*协商补偿*)
  • 分类任务,根据文本内容输出预定义类别标签
[指令] 判断以下新闻所属类别:科技/财经/娱乐
[输入文本]
“OpenAI发布新一代多模态模型,股价当日上涨7%”
[输出]
类别:科技(*内容主体为技术发布*)
辅助标签:财经(*涉及股价波动*)
  • 判断任务,分析信息并输出是非结论或概率判断
[指令] 根据医学指南判断是否需要立即就医:
[输入症状]
患者:男,35岁,持续胸痛2小时,伴随左臂麻木、冷汗
[输出]
结论:需要立即就医(*符合心绞痛危急指征*)
依据:
1. 胸痛持续>15分钟(2小时>阈值)
2. 存在放射性疼痛(左臂麻木)
3. 自主神经激活症状(冷汗)

数据量

SFT阶段的训练数据相对于预训练阶段要少的多,根据GPT3.5的论文,大概只用了1.3万条高质量的人工样本。每条样本基本上是几百Tokens的数据。

通识词汇

  • 有监督:使用有筛选或者有标注过的数据进行训练,这个训练过程叫做有监督学习。

可以理解为在训练大模型的时候,可以使用问答对,多轮对话等人类想设计方式进行训练,使大模型从这些训练数据中学习到对应的回答风格。

举个例子:

[指令]评论分类识别
[输入]商家送货速度棒棒哒!
[输出]
标签:正向
[输入]送货速度可太慢了,差评。
[输出]
标签:负向
[指令]判断两句话是否相似
[输入]“这可太好吃了” “味道确实是真不错”
[输出]
结论:相似
[输入]“多吃水果对身体有好处” “痛风病人不要吃海鲜”
[输出]
结论:不相似
  • 无监督:使用没有筛选或者标注过数据进行训练,这个过程叫无监督学习。

  • 半监督:少部分有标注的数据和大部分无标注的数据进行训练,这个过程叫半监督学习。

  • 自监督:训练过程中自己为自己数据打标签进行训练,这个过程叫自监督学习。

训练效果

SFT之后,大模型具备了指令遵循能力、结构化输出能力、上下文感知与多轮对话、拒绝机制与安全性提升、 思维链(CoT)能力激发等,现在可以做任务了。

但是还是会存在一些问题:

1、有幻觉,如一本正经的胡说八道;

2、长文质量逻辑一致性缺陷,如超过一定Token输出后,逻辑会自相矛盾;

3、安全边界问题,如奶奶漏洞;

4、泛化能力不足,如指令A:输出CSV表格,能正确输出。指令B:用逗号分隔值表示,生成了纯文本逗号列表,无表头

等等…

思考:

1、预训练阶段是无监督学习还是自监督学习?

3、Reinforcement Learning from Human Feedback 人类反馈强化学习

GPT的强化学习有两个很重要的步骤,一个是Reward Model ,一个是PPO。

Reward Model 奖励模型

目的

评估是一件很难的事情。如何评估一个模型整体能力?评估一个问题回答得如何?在这个阶段要训练一个新的模型去评价大模型的输出效果,这个新的模型就是奖励模型。

如何训练

那这个奖励模型是怎么训练出来的呢?

假如SFT后的模型为模型A

1、整理一系列问题,并把这些问题送给模型A,输出4次答案,分别为ABCD,大概准备3-5万个问题。

2、找一批标注工,对ABCD四个答案进行排序,比如D>C>A=B,D好于C,C好于A,A跟B一样。在这里,一个问题能得出6个标注数据:D好于C,D好于A,D好于B,C好于A,C好于B,A跟B一样。最后得到几万条标注数据集B。

3、将模型A的最后的输出层置换成输出分数层,这个模型为模型A+,用数据集B训练模型A+,训练出一个Reward Model。当然也可以用其他模型代替模型A+。

Reward Model最终的目的是让 Reward Model学会模仿人类偏好对(问题,答案)进行打分,用于后续的PPO阶段进行评分。

**PPO(Proxmal PolicyOptimization)**近端策略优化

目的

利用奖励模型(Reward Model)的反馈信号,通过强化学习的方式进一步优化模型输出,使其更符合人类偏好。

强化学习:比如在训练小狗狗,做对动作给零食(Reward Model打分),做错不奖励(PPO调整)。模型通过‘试错-奖励’慢慢学会人类偏好。

训练过程

假如SFT后的模型为模型A,Reward Model为模型B。

PPO的训练过程衍生出4个模型:

1、Actor Model,要继续训练下去的模型,就是模型A;

2、Reference Model,这个模型是用来在PPO训练过程中作为对照标准,是模型A的副本,这个模型在PPO过程中是不发生训练过程的;

3、Reward Model,这个是模型B,这个模型在PPO过程中也不发生训练过程的;

4、Critic Model,这个是一个新的模型,类似Reward Model的训练方式,在模型A的基础上,把最后的输出层换成分数输出,然后用Reward Model的输出数据进行预训练。训练一个能针对当前状态对未来预期输出评分,并在PPO过程中不断地训练。

步骤

1、准备一批问题;

2、由Actor Model输答案,联合Reference Model、Reward Model、Critic Model的相关机制,对答案进行评分及评估。

3、对Actor Model、Critic Model的参数进行更新。

举个例子

问题:中国的五岳分别是什么山?

1、Actor Model输入以上问题,给出答案:

答案1:东岳泰山、西岳华山、南岳衡山、北岳恒山、中岳嵩山;

2、Reference Model也输入以上问题,给出答案:

参考答案:五岳是泰山、华山、衡山、恒山和嵩山;

3、预测得分:Critic Model会预测Actor Model这一轮输出的表现。操作:将问题:中国的五岳分别是什么山?输入给Critic Model,Critic Model预测输出得分0.85;

4、真实得分:Reward Model对问题和Actor Model的答案进行评分。操作:将问题和答案1输入给Reward Model,Reward Model输出得分0.95;

5、PPO进行更新计算:

优势比较:真实得分-预测得分=0.95-0.85=+0.1,说明Actor Model表现比Critic Model预测的要好。

偏离度:对比Actor Model 和Reference Model回答的差异。本次Actor Model的回答更详细且核心正确,偏离度较小(未胡编乱造)。

更新策略:

PPO告诉Actor Model:“这类回答很好!下次遇到类似问题,可以稍微提高生成这种详细、清晰回答的概率”。

同时更新 Critic Model:“你低估了这个回答,下次预测要更准一点(向0.95靠拢)”。

来个反例

问题:中国的五岳分别是什么山?

1、Actor Model输入以上问题,给出答案:

答案2:五岳是泰山、华山、衡山、黄山和嵩山。黄山在安徽,特别漂亮!(❌ 错误:用黄山替代了恒山)

2、Reference Model也输入以上问题,给出答案:

参考答案:五岳是泰山、华山、衡山、恒山和嵩山;

3、预测得分:Critic Model会预测Actor Model这一轮输出的表现。操作:将问题:中国的五岳分别是什么山?输入给Critic Model,Critic Model预测输出得分0.65;

4、真实得分:Reward Model对问题和Actor Model的答案进行评分。操作:将问题和答案2输入给Reward Model,Reward Model输出得分0.2;

5、PPO进行更新计算:

优势比较:真实得分-预测得分=0.2-0.65=-0.45,说明Actor Model表现比Critic Model预测的要差。

偏离度:对比Actor Model 和Reference Model回答的差异。本次Actor Model的回答与 Reference Model差异巨大(替换恒山为黄山),偏离度较大。

更新策略:

PPO告诉Actor Model:“生成‘黄山替代恒山’这类错误答案的行为,必须大幅降低概率!”。

同时更新 Critic Model:“你离 Reference Model的安全回答太远了!下次收敛点,别乱改核心信息!你高估了这个回答,下次预测要更准(向0.2靠拢)”。

小结

经过上述步骤,几千轮数据的迭代,最终得到符合人类偏好的大语言模型。PPO的重要思想:

1、通过Reward Model、Reference Model作为基准,小幅度、渐进式调整Actor Model 和 Critic Model。

2、Reward Model具有人类的偏好的评分标准,使Actor Model 更符合人类偏好。

思考

1、PPO的Prompt为什么不需要答案?

总结

大模型就像学生:先“海量阅读”打基础(预训练),再“名师点拨”学技能(微调),最后“模拟考试”练成精(强化学习),最终成为博学、听话又靠谱的智能助手!

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值