AI大模型如何“练成”?详解训练、微调与强化学习的基础逻辑

部署运行你感兴趣的模型镜像

前言

我们或多或少都听说LLM大模型是先“训练”出来,然后再用于“推理”,那怎么理解这个“训练”过程?

是不是经常听说行业性场景中要使用垂域大模型,比通用大模型效果会更好,然后都说垂域大模型是“微调”出来的,那么什么是“微调”?和上面说的“训练”是什么关系?

当你尝试去深入了解这些问题时,搜到的各种介绍是不是都有点深奥?看到预训练、后训练、监督微调、强化学习、低秩适应、奖励模型等一堆概念是不是有点懵逼?

本文对这些概念和模式进行梳理汇总,并结合DeepSeek和Qwen两个案例进行说明,方便像我一样从信息化领域转型过来刚入门的同学也能快速了解“训练”的范围和基础逻辑。

预训练(Pre-Training)和后训练(Post-Training)

“训练Training”其实是多年前机器学习时代就有的概念,把机器学习模型可以想象成一个包含有多元变量的数学函数公式y=w1**x1+w2x2+…+wnxn+b,其中X1、X2…Xn就是预先选择好要参与计算的特征变量,然后利用一组包含特征值x和结果值y的历史数据,进行训练得到就是各个特征变量的权重系数W1、W2…Wn,这样这个函数就建立起来(训练出来)了,然后预测过程就是将新的一组变量x代入这个函数公式(模型)进行计算,得到函数结果y就是预测值。

虽然大模型本质和机器学习差异还是巨大的,比如大模型的训练过程是不需要人工预先选择/设计特征x的,而是自动学习提取出来的;大模型的权重系数W的数量是巨大的,几十亿到上万亿参数量;大模型的推理是基于词向量的概率推理,和机器学习这种确定性映射计算不同等。

但为了便于理解,我们还是可以将大模型的训练过程简单理解成以上数学函数的训练过程,最终都是为了训练得到这个函数的一套权重参数(只不过大模型的这个函数公式特别通用化、变量特征不固定、权重参数量特别多)。这个过程就包括预训练(pre-training)和后训练(post-train),其相互关系如下:

图片

预训练(pre-training)得到的叫基座模型,可以认为是得到数学函数的一套基础权重参数,可以满足一般场景的预测和推理需要。

后训练(post-train)则是在这个基座模型基础上,结合业务场景需要和行业知识数据等进一步训练,最终是调整了基座模型的某些权重参数,以更精准的满足具体业务场景预测和推理需要。

监督微调(SFT)和强化学习(RL)

后训练(post-train)内部又包含监督微调Supervised Fine-Tuning(SFT)和强化学习Reinforcement Learning(RL)两个方向,其主要实现机制对比如下:

图片

先利用前文所述数学函数的例子,来看看监督微调与强化学习的区别:监督微调是要准备一组特征值X和结果值Y(也就是所谓的标注/标签)组成的数据集来进行训练,通过调整函数的权重参数,让它的预测值与结果值Y尽可能接近,它的核心目标就是要最小化预测值与真实标签的误差;而强化学习则不需要预先准备好结果值Y,它只要提供输入让函数模拟计算,再通过与环境的交互获得反馈(奖励或惩罚),通过调整参数尽可能获取奖励,它的核心目标是要能最大化长期累积奖励期望值。

更形象的比喻,监督微调有点像刷练习题,预先准备好题目和标准答案,通过同类题目的反复练习和纠错(调参),确保碰到新题也能作对;而强化学习有点像模拟考,需要阅卷老师评价,通过反复模拟考,提升书写规范性、掌握时间分配、符合阅卷老师倾向等,以尽可能得高分。

如上所述监督微调Supervised Fine-Tuning(SFT)核心是要用到精确标注的数据集,而且是输入(特征)/输出(标签)成对出现的数据集,比如教育领域的题目和解题方法,医疗领域的症状和诊断方法,法律领域的案情和判决结果等,经过微调部分参数或全部参数,得到一个适用于特定行业领域更精准的专有模型。

这里推荐大神“智能体AI”写的《你真的了解大模型怎么“调”?四种主流LLM微调方法详解》这篇文章,基础逻辑讲得非常清晰,按微调的代价从高到低包括:全量微调Full-Tuning给基座模型“重塑金身”,相当于对以上所说数学函数的权重参数w全部都调整;冻结部分参数Freeze-Tunging只调“头部”参数;低秩适应LoRA给基座模型加外挂配件,相当于不用改模型本身参数,而是通过做加法,在基座模型上额外增加一些小的数学函数,以确保最终预测和推理结果也能符合行业特性;还有更轻量的量化低秩适应QLoRA,是把基座模型先量化压缩后,再做加法。

强化学习Reinforcement Learning(RL)的核心逻辑和微调SFT差别很大,它核心是通过奖励函数/奖励模型(Reward Model)的方式,来引导大模型形成一定的“肌肉记忆”,就是通过对模型输出,选择某些质量维度(如回答的有用性、安全性)进行评价,生成‌奖励分数‌,来指导大模型自我优化方向,举个例子可能更好理解:

比如我们常用的一些聊天对话大模型,之所以能够提供所谓的“情绪价值”,之所以不会出现暴力和涩涩的回答,很大程度上是通过强化学习实现的,在强化学习期间,如果大模型的输出是温暖和正面的,奖励模型就给它加分,经过长时间的强化学习引导,大模型的回答自然就会符合这些价值观和偏好。

所以强化学习的核心就在于奖励模型,这个才是灵魂和难度所在,当然强化学习内部又还有多种策略,比如RLHF(人类反馈强化学习)、PPO(近端策略优化)、GRPO(群体相对策略优化)等,后面案例中也会有所展开。

DeepSeek的模型谱系示例

接下来我们用DeepSeek的模型谱系案例,来理解上述预训练、监督微调和强化学习等不同训练方法的具体实践:

图片

如图,我们都很熟悉DeepSeek有两种比较常用的模型,通用语言模型V3和推理增强模型R1,这两种模型实际都是在基座模型DeepSeek-V3-Base基础上经过监督微调和强化学习出来的。

和我们一般认知有所不同,都说R1是基于V3的,实际指的是基于V3-Base这个基座模型(Foundation Model)。

图片

然后用于聊天对话的V3,实际也是在V3-Base基础上经过专门的后训练得出来的(基于标注好的问答数据集做SFT,基于强化学习评价引导等),所以才能在聊天对话中提供“情绪价值”。

而R1则是推理增强模型,其核心也包括监督微调SFT过程,利用带思维链推理过程标注的数据集;也包括强化学习RL过程,利用奖励模型来评分(如有推理过程和格式就加分,推理过程越清晰得分越多等)。经过多轮次交替最终得到这种推理增强模型。

额外提一句:R1推理模型因为有Thinking思考过程,响应时间更慢一些,但可解释性更强一些,所以更适合复杂分析和总结的场景,而需要即时响应并反馈的场景,则更适合用通用语言模型V3。五一前夕出来的Qwen3模型,则是一个混合推理模型,可以按需开启/关闭推理思考过程。

Qwen2.5-Math模型谱系示例

前段时间因为要引用Qwen的数学模型(Qwen2.5-Math-7B-Instruct),在魔搭社区找到该模型的介绍,看到其模型谱系如下:

图片

如图在Qwen2.5模型基础上,利用数据集“Math Corpus V2”,经过预训练Pre-train得到Qwen2.5数学模型系列的基座模型“Qwen2.5-Math”。

在基座模型“Qwen2.5-Math”基础上,经过监督微调SFT,得到Qwen2.5-Math-SFT模型,这里提到SFT过程包括:

图片

这段英文主要说明微调SFT过程用到了思维链CoT做法,以及集成工具推理TIR的做法,关键是利用“Math SFT V2”这套标注数据集,实现中英文数学问题的解答。

在Qwen2.5-Math-SFT模型基础上进一步进行强化学习,其核心是利用“Qwen2.5-Math-RM(72B)”这个评价模型(Reward Model),同时基于‌群体相对策略优化GRPO(Group Relative Policy Optimization),才最终得到我们要在业务场景中使用的模型“Qwen2.5-Math-7B-Instruct”。

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

最后

感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。

为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。

这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。

这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

您可能感兴趣的与本文相关的镜像

Qwen3-8B

Qwen3-8B

文本生成
Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型,提供了一整套密集型和专家混合(MoE)模型。基于广泛的训练,Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值