AI大模型：从入门到实战全攻略

原创于 2025-07-30 20:44:07 发布 · 805 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型 #深度学习 #转行 #transformer #ai #程序员

1. 大模型学习路径

大模型学习可以理解为训练一个猴子，行业内人士称训练的过程是炼丹，这也有一定的道理，因为大模型学会哪些知识都是不可控的，需要多次尝试，需要一定的运气成分在里面。

大模型学习知识的本质，其实就是把文本转换成的数字，写入大模型的词汇表里，词汇表是个大型的空间矩阵，空间矩阵每个维度（列），就是代表了某个词的一个含义，比如：苹果有水果和手机等多种含义。大模型学习过程就是通过训练，把现实世界的词汇含义，映射到此表空间内。

在这里插入图片描述

大模型的维度非常多，像chatGPT达到了12500个维度，词空间矩阵是非常庞大的。再看下图，这是大模型的学习过程，目前主流是预训练-SFT训练和强化学习三个阶段。

预训练阶段：这个阶段完成后，模型可实现类似完形填空的效果。

大量的文本数据：预训练模型通常是在海量的文本数据上进行训练，这些数据涵盖了不同的领域、风格和表达方式。通过这些数据，模型能够接触到丰富的语法结构、句法规则和上下文关联等语言信息。例如，模型可以学习到“猫”和“狗”是常见的动物，甚至能理解它们通常出现在相似的上下文中（如：“猫喜欢吃鱼”与“狗喜欢吃肉”），从而掌握这些动物的基本语义。

SFT训练：这个阶段是可以实现基本的问答效果

指令微调的目标就是让模型在面对特定任务时，能够通过给定的指令进行有效的理解和处理。通过“指令微调”，模型不仅能更好地完成像问答、摘要生成、机器翻译等常见任务，还能提高在对话式AI、个性化推荐等应用中的表现。简而言之，SFT是为了让模型在面对具体任务时，能按预期提供更加精准和符合需求的结果。

强化学习与人类反馈（RLHF）：这个阶段是为了实现回答符合人类偏好

基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）是一种将强化学习与人类反馈结合的方法，旨在优化模型的行为和输出，使其更加符合人类的期望。通过引入人类反馈，RLHF帮助模型更好地理解和满足人类的偏好，生成更自然、更符合人类意图的输出。

在强化学习与人类反馈（RLHF）的训练框架中，我们可以用一个类比来帮助理解：它就像是一个高中生备战高考的全过程。首先，这个高中生通过三年的日常学习积累了大量的基础知识（类似于模型的预训练），为接下来的高考专项训练奠定了基础。然后，他通过模拟考试（类似于有监督微调SFT）来针对性地提高应试能力。而在强化学习阶段，学生需要根据模拟考试的反馈进行调整，优化答题策略，这就像是模型在RLHF中根据人类反馈不断优化自身行为。奖励模型就像是老师根据学生表现给出的评分，帮助学生找到改进的方向，最终通过这种反馈机制使模型更符合人类的期望，表现更好。

现在各家的训练过程大同小异，都有自己的诀窍在里面，目前训练最难的不是算法，而是数据，高精度数据会显著提升训练效果，数据已经成为大模型的核心竞争力！

2、学习过程原理

在这里插入图片描述

a. 数据输入与预处理

首先要对数据进行预处理，主要是将海量文本拆分为固定长度的短句，再通过分词器和词嵌入技术，将文本转为向量，

类似：苹果->[0.2,0.4,0.1,0.7]

数据集

模型通常在海量的文本数据（如网页、书籍、对话等）上进行训练，数据涵盖多种语言、领域和风格。
分词

文本被分解为词、子词或字符（通过如BPE或WordPiece的分词算法），并转换为数字表示（词嵌入，Embedding）。
上下文窗口

Transformer以固定长度的序列（Context Window）处理输入，序列中的每个词都有对应的嵌入向量。

b. 自注意力机制计算：

在这里插入图片描述

下一个tokens的预测过程经过QKV计算后，得到输入序列的注意力权重，然后与线性层词典表做矩阵乘法，在做softmax，计算出文字概率

简化的计算示例
在这里插入图片描述

反向传播
梯度：就是损失函数对模型参数的偏导数（导数是对一个变量求导，偏导数是对多个变量求导）

反向传播：就是根据计算梯度，用学习率*梯度得到的值，更新每一层的权重参数

在这里插入图片描述

c. 前馈网络与层堆叠

特征转换

每一层的全连接前馈网络对注意力机制的输出进行非线性变换，进一步提取和整合特征。
多层堆叠

Transformer通常包含数十到数百层，每层处理的信息逐渐抽象，从词级别到句子、段落级别的语义。

d. 反向更新：根据前向和反向传播计算结果，由损失函数计算出差值，反向更新模型参数，使词向量数值逼近现实世界词汇含义。

Transformer模型通过反向传播算法更新参数，从而“学习”知识。这是深度学习的核心机制，具体步骤如下：

前向传播
- 输入数据（例如分词后的文本序列）经过Transformer的各层（自注意力、前馈网络等），生成输出（如预测下一个词的概率分布）。
- 输出与真实标签（Ground Truth）比较，计算损失函数（如交叉熵损失）。
反向传播

损失函数对模型参数（如权重矩阵、偏置）的梯度通过链式法则计算。
- 从输出层逐层向输入层反向传播，计算每一层参数的梯度。
- 例如，自注意力机制的权重、词嵌入矩阵等都会根据梯度更新。
参数更新

使用优化算法（如Adam）根据梯度更新模型参数，目标是最小化损失函数。
- 更新公式：参数 = 参数 - 学习率 * 梯度。
- 这一过程反复迭代，使模型逐步逼近数据分布，学习到语言模式和知识。