硬核干货!稳定LLM强化学习:一阶近似与双差异最小化核心逻辑(非常详细),建议收藏!

本文提出大语言模型强化学习新表述,将 token 级优化目标视为序列级奖励的一阶近似,其有效性依赖最小化训练 - 推理差异与策略陈旧性,为重要性采样校正、裁剪及 MoE 模型路由重放等技术提供统一逻辑;经 30B MoE 模型数十万个 GPU 小时实证,明确在线策略训练用带重要性采样校正的基础策略梯度算法,离线策略训练需结合裁剪与路由重放(小离线程度用 R2、大离线程度用 R3),且稳定训练后不同冷启动模型性能趋同,该工作既解答了 “token 级优化序列级奖励” 的合理性疑问,又提供实用方案,推动 LLM 强化学习从 “经验调参” 迈向 “理论驱动规模化落地”。

RL 早已成为提升 LLMs 复杂问题解决能力的核心技术,从数学推理到逻辑分析,RL 能让模型在交互中持续迭代优化。但在实际应用中,“训练崩溃”“性能波动”“规模难扩展” 等问题一直困扰着研究者,尤其是当模型规模扩大到 MoE 架构时,稳定性问题更为突出。

该工作首次从理论层面通过公式推导说清了 LLM 强化学习稳定训练的底层逻辑,并通过数十万 GPU 小时的实证,给出了不同场景下的 “即用型” 方案。不仅解答了 “为什么 token 级优化能提升序列级奖励” 的核心疑问,更让 LLM 强化学习从 “靠经验调参” 走向 “按理论设计”。

一. 核心矛盾:LLM 强化学习的 “目标不匹配” 困境

要理解训练不稳定的根源,首先要认清一个核心矛盾:我们关心的是 “序列级奖励”,但算法优化的是 “token 级目标”。

1

矛盾的本质:奖励与优化单元的错位

语言的上下文特性决定了,我们评价模型好坏的标准是 “完整响应的质量”—— 比如让模型解一道数学题,我们只会根据最终答案是否正确给出 “对” 或 “错” 的奖励(这就是 “序列级奖励”)。但主流的强化学习算法(如 REINFORCE、GRPO),本质上都是按 “单个 token” 优化的 —— 模型每生成一个词,算法就调整这个词的生成概率(这就是 “token 级目标”)。

这种错位的数学表达更能凸显问题核心:

序列级奖励(我们真正想优化的目标)是:

其中 π_θ 是待优化的目标策略,R(x, y) 是基于完整响应 y 的标量奖励,这个目标的物理意义是 “最大化所有输入提示 x 对应的期望序列奖励”。

token 级优化(算法实际执行的操作):模型生成响应 y 的似然度是每个 token 似然度的乘积

该算法只能通过调整单个 π_θ 来优化整体奖励。

我们想要的是整段回答的优质,却只能通过逐词优化来实现。这不仅引发了 “这种优化是否合理” 的疑问,更直接导致了训练的不稳定性 —— 逐词优化的方向可能与整段奖励的目标背道而驰。而这一 “奖励在序列级、优化在 token 级” 的不匹配,也长期让业界对这类方法的理论健全性与训练稳定性充满担忧,因此已有研究尝试直接使用序列级优化目标。

2

两个隐形杀手:让优化进一步跑偏

如果说 “目标不匹配” 是底层矛盾,那么 “训练 - 推理差异” 和 “策略陈旧性” 就是放大矛盾的两大隐形杀手,这一点可通过公式的实际应用场景清晰体现:

2.1. 训练 - 推理差异

训练时的模型(比如用 BF16 精度、完整计算流程)和推理时的模型(比如用 FP8 精度、简化内核以提升速度),哪怕输入完全相同,输出结果也可能不一样。论文中通过重要性采样(IS)技巧的变换,直观呈现了这一差异:

其中 μ_{θ_{old}} 是推理引擎中的滚动策略,π_θ 是训练引擎中的目标策略,两者的似然比 π_θ / μ_{θ_{old}} 就是为了修正两个引擎的数值差异 —— 这也从侧面证明,训练和推理的天然分歧是客观存在的。

2.2. 策略陈旧性

强化学习需要先让 μ_{θ_{old}}(滚动策略)采样一批响应,再用这些响应训练π_θ(目标策略)。如果采样和训练间隔太久,或者批量太大导致多次更新后才用完采样数据,π_θ与 μ_{θ_{old}} 的差距会越来越大,导致公式中 π_θ / μ_{θ_{old}} 的比值异常(要么过大要么过小),优化方向彻底跑偏。

3

MoE 模型的额外难题:动态路由放大不稳定性

对于 30B 参数级别的 MoE 模型(这类模型不激活全部参数,而是通过 “专家路由” 机制动态选择部分专家处理任务),问题更复杂。MoE 生成每个 token 时都会 “选专家”,这让 token 级似然度的计算多了一个变量:

其中 e_t^π 是训练引擎选择的专家,e_{old,t}^μ 是推理引擎选择的专家。

MoE 场景下的强化学习挑战在于:专家路由与训练 - 推理差异、策略陈旧性紧密耦合,从而更容易导致 token 级优化目标失效。具体来说,训练 - 推理差异会导致相同输入下专家选择不一致,进一步放大输出差异;而策略陈旧性不仅体现在模型参数变化,还体现在路由专家的偏移,这会彻底改变模型的有效策略,让训练稳定性雪上加霜。此外,MoE 的动态专家路由机制还可能破坏 token 级重要性采样比的有效性,这也让 “在什么条件下用 token 级目标优化序列级奖励才合理” 的问题变得更为关键。

二. 理论突破:token 级优化的 “合法性” 来自一阶近似

这篇论文通过严谨的公式推导,为 “用 token 级优化实现序列级奖励” 提供了坚实的理论依据 ——token 级目标是序列级奖励的 “一阶近似”,而这个近似成立的关键,就是同时最小化上述两个隐形杀手。

1

公式推导:从 “乘积” 到 “求和” 的核心近似

论文的核心推导过程,清晰揭示了 token 级优化的合理性:

  1. 首先,序列级目标的梯度难以直接计算:

由于 π_θ(y | x) 和 μ_{θ_{old}}(y | x) 的数值范围大、方差高,这个梯度在实际中几乎无法直接使用。

  1. 因此,论文提出 token 级代理目标:

其梯度为:

  1. 关键近似:当 π_θ 与 μ_{θ_{old}} 差异较小时,令

(δ_t为小量),则序列级似然比可近似为:

这里忽略了 δ_i,δ_j 等二阶小项,此时序列级梯度与 token 级梯度近似相等:

这个推导的核心结论是:当 π_θ 与 μ_{θ_{old}} 足够接近时,优化 token 级目标就等同于优化序列级奖励。而 “足够接近” 的前提,正是最小化 “训练 - 推理差异” 和 “策略陈旧性”—— 这也解释了为什么之前很多训练会崩溃:当这两个差异太大时,二阶小项无法忽略,近似失效,token 级优化就成了 “无的放矢”。这一梯度形式实际上就是带 token 级重要性采样权重的基本策略梯度算法(REINFORCE),团队用一个更易优化的 token 级替代目标来逼近真正希望最大化的序列级期望奖励。

2

近似成立的关键条件:两个 “差异最小化”

通过对 token 级重要性采样权重重写,进一步明确了近似成立的条件:

这个分解清晰地表明,π_θ 与 μ_{θ_{old}} 的差距完全来自两个部分:第一部分是训练引擎与推理引擎的数值差异(π_{θ_{old}} 与 μ_{θ_{old}}的比值);第二部分是目标策略与滚动策略的参数差异(π_θ 与 π_{θ_{old}})的比值)。只有让这两个比值都尽可能接近 1,token 级目标的近似才有效,这就是稳定训练的核心逻辑。

3

现有稳定技术的 “底层逻辑” 终于明确

之前大家在实践中用到的重要性采样、裁剪等技巧,虽然能提升稳定性,但没人说清背后的原理。这篇论文通过公式推导,首次揭示了它们的本质 —— 都是为了让上述两个比值接近 1,维护一阶近似的有效性:

重要性采样校正:对应公式中 π_{θ_{old}} / μ_{θ_{old}} 项,其作用是直接修正训练和推理的数值差异,让第一部分比值接近 1,且重要性采样权重天然出现在基于该一阶近似的 token 级替代目标中;

裁剪(Clipping):通过限制 π_{θ} / π_{θ_{old}} 的范围(比如 [1-ε_{low}, 1+ε_{high}]),防止策略更新过于激进,让第二部分比值接近 1,从而抑制策略陈旧;

路由重放(MoE 专属):通过固定专家选择(e_t^π = e_{old,t}π或e_{old,t}μ),将 MoE 模型的 token 级似然比修正为稳定形式:

既减少了训练 - 推理的专家选择差异,又避免了策略更新带来的专家偏移,让两个比值都保持稳定,能够同时减少训练–推理差异与策略陈旧。

这一观点从原理上统一解释了多种 RL 稳定训练技巧的有效性,让之前零散的实践经验有了坚实的理论支撑。

需要补充的是,团队采用序列级奖励设置,专注于序列级优化,而不考虑基于价值函数的设置(比如 PPO)—— 其中每个 token 会从价值模型获得一个标量评分从而引导策略优化。之所以不采用价值函数方法,是因为团队发现:构建通用、可扩展且可靠的价值模型本身就极为困难(甚至几乎不可能)。

三. 实证方案:不同场景的 “最优训练配方”

该团队用 30B 参数的 MoE 模型,在数学推理任务上进行了总计数十万 GPU 小时的实验,覆盖在线策略、离线策略、不同冷启动初始化等核心场景,通过公式对应的目标设计,给出了可直接复用的结论。

1

实验基础:MiniRL 极简基线算法

为了聚焦核心变量,论文设计了一款极简基线算法 MiniRL,其目标函数完全遵循一阶近似理论:

在实验中,团队对公式 (3) 的 REINFORCE 优化目标仅进行了这两项最小化修改,便构建出了 MiniRL。相比 GRPO、CISPO 等现有算法,MiniRL 的优势很明显:不做破坏近似的 “长度归一化”,保留重要性采样校正,同时通过 M_t 精准控制策略陈旧性。而 GRPO 和 CISPO 与 MiniRL 的关键差异的在于:(1)它们的原始目标未考虑训练 - 推理差异;(2)均采用长度归一化,这会破坏一阶近似,导致 token 级优化目标产生偏差、性能次优;(3)CISPO 不对特定 token 的梯度进行裁剪,容易造成训练不稳定。

2

场景 1:在线策略训练(采样和优化用同一个模型)

在线策略的核心特点是 “采样和优化同步”—— 用当前模型(θ = θ_{old})采样响应后,立刻用这些响应优化同一个模型,此时 MiniRL 的目标函数简化为:

此时重要性采样权重仅用于修正训练 - 推理差异,策略陈旧性本身较小。

2.1. 最优方案

基础策略梯度算法 + 重要性采样校正(即上述简化后的 MiniRL)。

实验证明,该方案能实现最高的训练稳定性和最佳性能。

2.2. 关键避坑点1:

不要加 “长度归一化”:比如将目标函数改为

,这会破坏一阶近似,导致性能下降;

2.3. 关键避坑点2:

不要省略重要性采样校正:若目标函数变为

,训练会在几百步内快速崩溃,模型熵值急剧下降;

2.4. 关键避坑点3:

MoE 模型不要乱用路由重放:在线策略下,路由重放会改变原始目标策略,导致 π_{θ}^{R2} 或 π_{θ}^{R3} 与 π_{θ} 偏离,引入额外偏差,反而降低性能。

3

场景 2:离线策略训练(用旧模型采样,新模型多次优化)

离线策略是工业界更常用的方式 —— 用 μ_{θ_{old}} 一次性采样大批量响应,再拆成小批量多次优化 π_{θ} ,这样能充分利用计算资源,加速收敛。但这种方式会让 π_{θ} 与 μ_{θ_{old}} 的差距逐渐扩大,策略陈旧性激增,稳定性挑战更大。

3.1. 路由重放 + 裁剪,缺一不可

实验证明,只要省略其中一项,训练就会过早崩溃,峰值性能大幅下降。第一个原因是裁剪通过 M_t 限制policy staleness(下式)的范围,控制策略陈旧性;

另一方面,路由重放通过固定专家选择,让 MoE 模型中的 π_{θ} / μ_{θ_{old}} 保持稳定,减少训练 - 推理差异。

具体来讲,Routing Replay 能够缓解专家路由带来的不稳定因素;Clipping 则能有效抑制过度激进的策略更新,两者共同作用,从而抑制策略陈旧,保障训练稳定性。

3.2. 分情况选择路由重放方案

论文提出了两种路由重放实现,对应不同的离线策略程度:

R2(Vanilla Routing Replay):

,保留第一个小批量的原始目标策略(e_{old,t}^π = e_t^π),偏差更小,适合离线程度小(全局批量 = 2× 小批量)的场景,此时 R2 性能优于 R3;

R3(Rollout Routing Replay):

,统一复用推理引擎的专家,更彻底地减少训练 - 推理差异,适合离线程度大(全局批量≥4× 小批量)的场景。

实验结果显示,当全局批量 = 8× 小批量时,R2 会因策略陈旧性累积而崩溃,而 R3 仍能通过稳定的似然比计算保持训练稳定。

4

场景 3:冷启动初始化 —— 不用纠结 “起点”,稳定训练才是关键

很多研究者会纠结 “冷启动数据选哪个模型的蒸馏结果”,但论文的实验给出了颠覆性结论:只要训练稳定,不同冷启动初始化的模型,最终性能都会趋同。

实验用了三种从前沿模型蒸馏而来的冷启动数据(Qwen3-Max-Thinking-Preview、DeepSeek-R1-0528、gpt-oss-120b),采用 MiniRL + R2 作为训练方案,最终在 AIME25、AIME24 等基准测试中的分数几乎一致。

这意味着,J^{seq}(θ) 的收敛结果与初始 θ_0 无关,只要通过稳定训练让一阶近似持续有效,模型最终都会收敛到相近的最优解,与其花费大量精力调优初始化数据,不如把资源投入到 “构建稳定的训练流程” 上。

此外,通过对比在线策略和离线策略的实验结果,团队还发现:无论是 on-policy 还是 off-policy,只要训练过程得以稳定,其峰值性能都高度一致。这些结果进一步说明:稳定的训练过程在成功扩展 RL 中起着决定性作用。

5

实验细节

这篇论文的实验之所以有说服力,关键在于其 “压力测试” 设计和 “可量化指标”:

实验任务与数据:在数学推理任务上展开实验,模型生成的回答会与标准答案比对,并获得二值奖励。团队构建了包含 4096 道、均具有经过验证答案的数学题目作为 RL 训练的提示集。评测时,在 HMMT25、AIME25 和 AIME24 基准上(三个基准共包含 90 道竞赛级数学题)分别采样 32 个响应,并报告平均准确率。

极端场景验证:采用 FP8 推理 + BF16 训练的设置,刻意放大训练 - 推理差异,让 training–inference discrepancy 的波动更大,以此验证算法的鲁棒性;

模型与精度设置:实验采用从 Qwen3-30B-A3B-Base 微调得到的冷启动模型。训练采用 BF16 精度,而推理使用 FP8 精度(数值精度更低),构成严格的应力测试场景 —— 训练与推理之间存在较大数值差异,能更充分验证算法鲁棒性。

多维度指标监测:除了基准测试分数,还跟踪训练 - 推理 KL 散度(D_{KL}[μ_{θ_{old}} || π_{θ_{old}}])和 token 级熵(H[π_θ]),前者直接反映训练 - 推理差异的大小,后者反映模型生成的多样性,让 “稳定” 不再是模糊概念;

大规模算力支撑:30B MoE 模型,总计消耗数十万 GPU 小时,每个梯度步骤的计算量约为 5-6 GPU 小时,确保了实验结果的统计显著性。

四. 实验结果解析:可视化验证理论的实战证据

理论的价值最终需要实验数据支撑。Qwen 团队基于 30B 参数 MoE 模型,在数学推理任务上投入数十万 GPU 小时,设计了覆盖在线策略、不同程度离线策略及冷启动初始化的多组对照实验。实验采用 FP8 推理 + BF16 训练的应力测试设置,刻意放大训练 - 推理差异,通过基准分数、训练 - 推理 KL 散度、token 级熵值等多维度指标,全方位验证了一阶近似理论的正确性与实用方案的有效性。

1

在线策略训练:基础配置下的稳定性验证

在线策略训练的核心特征是 “采样与优化同步”,即全局批量大小等于小批量大小(gbs=mbs=1024),此时策略陈旧性几乎可忽略,核心验证训练 - 推理差异对训练稳定性的影响。

图1:当全局批量大小(gbs)与迷你批量大小(mbs)均设为1,024时的在线策略训练结果。

从可视化结果可清晰观察到带有重要性采样校正的 MiniRL 算法表现最为突出:基准测试分数始终保持领先且稳步上升,训练 - 推理 KL 散度(蓝色曲线)长期维持在 10⁻² 量级的低水平,token 级熵值(绿色曲线)平稳下降且无突变 —— 这表明模型在持续学习有效模式,未出现探索能力丧失或模式崩溃。

关键对比验证理论:

移除训练 - 推理重要性采样校正(MiniRL - train-infer-IS):训练在 400 步左右快速崩溃,基准分数骤降,熵值从 0.35 急剧下降至 0.1 以下,说明模型彻底陷入局部最优,失去探索能力,直接印证了重要性采样校正对维持一阶近似有效性的核心作用。

加入长度归一化(MiniRL + length-norm):尽管训练未崩溃,但基准分数始终低于 MiniRL,且训练 - 推理 KL 散度波动更大,证明长度归一化会破坏一阶近似,导致优化目标产生偏差。

MoE 模型应用 R3 路由重放(MiniRL + R3):虽能降低训练 - 推理 KL 散度,但基准分数反而下降,验证了在线策略下路由重放会引入目标策略偏差的理论推测 ——R3 改变了模型自然路由选择,抵消了差异降低带来的收益。

2

离线策略训练:不同程度下的最优配方验证

离线策略训练通过拆分大batch响应为多个小batch(N=2、4、8,对应 gbs=2×mbs、4×mbs、8×mbs)加速收敛,但会引入显著的策略陈旧性,实验重点验证裁剪与路由重放的协同作用。

2.1. 核心结论:裁剪与路由重放缺一不可

图2:当全局批量大小(gbs)= 2 × 迷你批量大小(mbs)= 2,048时的离线策略训练结果。

实验表明:

仅用 MiniRL(无裁剪)或 MiniRL+R2(无裁剪)时,训练在 1000 步后出现明显崩溃:基准分数快速下滑,训练 - 推理 KL 散度(橙色、灰色曲线)从 10⁻² 量级飙升至 10⁻¹,熵值波动剧烈 —— 这是策略陈旧性失控的典型表现,证明无裁剪时,策略更新幅度过大,一阶近似快速失效。

同时启用裁剪与路由重放(MiniRL+R2、MiniRL+R3)后,训练全程稳定:基准分数持续上升,KL 散度维持在低水平,熵值平稳下降,证明裁剪通过限制策略更新幅度、路由重放通过固定专家路由,共同抑制了策略陈旧性,让一阶近似持续有效。

2.2. R2 与 R3 的场景适配性

图3:当全局批量大小(gbs)= 4 × 迷你批量大小(mbs)= 4,096 时的离线策略训练结果。

实验明确了路由重放两种实现的适用边界:

低离线程度(gbs=2×mbs):R2 表现优于 R3(蓝色曲线高于红色曲线)。因为 R2 在第一个小批量中不改变原始目标策略,偏差更小,能更好适配策略陈旧性较小的场景。

中高离线程度(gbs=4×mbs、8×mbs):R3 反超并成为必需。随着批量拆分次数增加,策略陈旧性累积,R3 统一复用推理引擎专家路由的特性,能更彻底地降低训练 - 推理差异;而 R2 因后期目标策略偏移逐渐扩大,在 gbs=8×mbs 时(右图),训练在 3000 步后崩溃,峰值性能也低于 R3。

3

冷启动初始化:稳定训练抹平起点差异

针对 “冷启动数据是否影响最终性能” 的业界疑问,实验对比了三种不同来源的冷启动数据(Qwen3-Max-Thinking-Preview、DeepSeek-R1-0528、gpt-oss-120b(high 模式)),采用 MiniRL+R2 的稳定训练方案。

图10:不同冷启动初始化的详细基准测试结果。

从可视化结果可见:

训练初期(前 200 步):三种模型的基准分数存在小幅差异(Qwen3-Max 初始化略占优),但随着训练步数增加(400 步后),差距逐渐缩小,最终在 AIME25、AIME24 基准测试中达到近乎一致的性能水平(分数均稳定在 0.82-0.84 区间)。

响应长度同步收敛:三种模型的平均响应长度也随训练推进趋于一致(稳定在 28000-30000 token),表明稳定的 RL 训练能有效抵消冷启动初始化带来的差异。

这一结果极具实践意义:它证明了 “稳定训练比优质冷启动更重要”,研究者无需过度纠结于初始化数据的选择,将资源投入到构建稳定的 RL 训练流程,更能保障最终性能。

4

关键指标的联动验证

实验通过多维度指标的联动分析,进一步夯实了理论基础:

负相关验证:训练稳定的模型(如 MiniRL、MiniRL+R2/R3),其训练 - 推理 KL 散度与基准分数呈显著负相关 ——KL 散度越低(训练 - 推理差异越小),基准分数越高,直接印证了 “最小化训练 - 推理差异” 的核心条件。

熵值预警作用:token 级熵值的平稳下降是模型健康学习的标志(如 MiniRL 的绿色曲线);若熵值突然飙升或骤降(如 MiniRL - train-infer-IS),往往预示着训练崩溃,可作为实时监控的关键预警指标。

跨策略一致性:无论是在线策略还是离线策略,只要训练稳定,最终都会收敛到相近的峰值性能(基准分数均在 0.75-0.80 区间),证明 “最小化双差异” 是规模化 RL 的核心通用原则。

这些实验结果通过可视化方式直观呈现,不仅验证了一阶近似理论的正确性,更让稳定 RL 训练的实用方案有了坚实的数据支撑,为工业界落地提供了可直接参考的实战依据。

五. 总结与展望:让 LLM 强化学习规模化落地

从理论上,首次通过严谨的数学推导,明确了 “token 级优化序列级奖励” 的适用条件

,为所有稳定训练技术提供了统一的底层逻辑;从实践上,通过超大规模实验,给出了不同场景下的 “最优配方”,尤其是通过路由重放解决了 MoE 模型的强化学习稳定性难题。

更重要的是,它打破了 “冷启动决定最终性能” 的误区,证明了 “稳定训练才是规模化 RL 的核心”—— 只要训练流程设计合理,让一阶近似持续有效,哪怕起点不同,模型最终都能收敛到相近的高性能。这为工业界大规模部署 LLM 强化学习提供了信心:我们不用再纠结于初始化的细节,而是可以聚焦于优化训练框架的稳定性和效率。

未来的研究方向也很清晰:探索更高效的优势估计方法、适配更大规模 MoE 的路由策略、将这套方案拓展到对话生成、代码生成等更多任务场景。相信随着这些方向的推进,LLM 强化学习的规模化落地将变得更加高效、可靠。

归根结底,LLM 强化学习的稳定化,本质是 “让优化目标与实际需求保持一致”—— 这篇论文的核心贡献,就是通过公式推导为这种 “一致性” 提供了可理论验证、可实践复现的完整方案。对于研究者和工程师来说,这不仅是一篇论文,更是一份 “LLM 强化学习稳定训练手册”。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值