
一、引言
在自学大模型(LLM)的过程中,我逐渐意识到:理解序列模型是理解 LLM 的核心路径。大模型的行为虽然复杂,但其底层机制其实非常简单:
LLM(如 GPT、LLaMA、Qwen)本质上是一类序列建模模型。
它的任务就是:根据前面的 token,预测下一个 token。
这种预测方式在统计学中已有几十年历史,它有一个共同的名称:自回归(Autoregressive, AR)
而现代 LLM(如 GPT、LLaMA、Qwen)正是:
LLM=Transformer架构+自回归训练范式
\text{LLM} = \text{Transformer架构} + \text{自回归训练范式}
LLM=Transformer架构+自回归训练范式
理解这层关系,有助于更好理解 Transformer 的设计动机,也能让整个 LLM 原理体系变得清晰可解释。
二、自回归模型:传统序列模型的核心思想
在机器学习出现之前,序列建模的主要工具来自传统统计模型。其中最经典的一类就是线性时间序列模型,包括:
-
AR(Autoregressive,自回归模型)
-
MA(Moving Average,滑动平均模型)
-
ARMA / ARIMA(在 AR 与 MA 基础上加入差分、季节性等结构)
这类模型都围绕一个共同的思路:当前时刻的值由过去序列中的若干值共同决定。
1. AR模型
在这些模型中,AR(自回归)最能体现这一思想。它的数学形式为:
xt=f(xt−1,xt−2,⋯ ,xt−k)+ϵ
x_t = f(x_{t-1}, x_{t-2}, \cdots, x_{t-k}) + \epsilon
xt=f(xt−1,xt−2,⋯,xt−k)+ϵ
其核心特征包括:
- 依据过去kkk个观测预测当前值(kkk阶马尔可夫模型)
- 模型结构简单、可解释性强
- 强调序列时间依赖
可以看到,AR 模型虽然结构朴素,但它所体现的“利用过去预测未来”的思想,成为后续所有序列建模方法的基础。从 RNN/LSTM 到 Transformer,再到现代 LLM,这一思想始终没有改变,只是模型函数f(⋅)f(·)f(⋅)从线性形式演化为更强大的神经网络结构。
三、深度学习接棒:自回归思想未变、模型更强
随着深度学习的兴起,序列任务由 RNN 一类模型接棒:RNN、LSTM、GRU。
虽然模型结构变得复杂,但其训练范式保持不变:
P(xt∣x<t)
P(x_t|x_{<t})
P(xt∣x<t)
也就是说:深度学习序列模型依然是自回归模型,只是把传统的线性函数fff替换为了强大的神经网络。
RNN 引入循环结构,LSTM/GRU 引入门控机制来增强长程依赖能力,但底层思想仍然延续传统 AR:
过去决定现在。
四、Transformer 如何成为“自回归模型”?
Transformer 最初是为机器翻译提出的,是一种用于建模序列关系的结构(基于注意力机制),它本身不是自回归模型。
但当我们使用以下训练目标时:
max∏tP(xt∣x<t)
\max \prod_t P(x_t \mid x_{<t})
maxt∏P(xt∣x<t)
并配合 Causal Mask(因果掩码) 限制当前 token 只能访问前文,Transformer 便被“转化”为:自回归语言模型(Autoregressive Language Model, AR LM),这也就是 GPT 的工作模式。
注意力机制让模型能在任意长度上下文中建立依赖,而自回归训练方式让它能够按序生成语言。
五、自回归模型到LLM的技术演化脉络
将传统模型到 LLM 的发展串起来,就是一条非常清晰的演化链:

可以看到:LLM 并不是脱离传统 AR,而是将自回归思想推向了极致。
六、为什么现代 LLM 仍坚持自回归?
虽然 LLM 能执行对话、推理、写代码等复杂任务,但其底层仍依赖一个核心训练方式:
下一个 token 预测(Next-Token Prediction, NTP)
\text{下一个 token 预测(Next-Token Prediction, NTP)}
下一个 token 预测(Next-Token Prediction, NTP)
坚持自回归具有以下优势:
✔ 1)天然契合语言顺序
语言本质上是按 token 顺序展开的,AR 与其完全吻合。
✔ 2)训练目标简单稳定
无需标注数据,只需大量文本即可学习丰富语义与世界知识。
✔ 3)推理方式稳定
逐 token 预测,不会出现整句预测失败的问题。
✔ 4)支持长文本生成
适合对话、故事生成等场景,可在线持续生成。
这些原因也是为什么 BERT 虽然强大,却不用于生成任务。
七、自回归思想对 LLM 的深层影响
自回归不仅是一种训练方式,也深刻影响 LLM 的推理机制与能力边界。
1. 训练方式完全继承 AR 范式
P(xt∣x<t) P(x_t \mid x_{<t}) P(xt∣x<t)
这是 LLM 学习语言、知识和推理能力的核心。
2. 生成方式仍是 AR
生成流程如下:
-
输入已有 tokens
-
预测下一个 token
-
将预测结果加入上下文,继续预测
与传统 AR 完全一致。
3. 底层行为就是序列预测
无论 LLM 看起来多么“智能”,其本质都是:
一个极其强大的序列预测器。
大规模带来高质量预测,从而表现出“智能”般行为。
八、结语:LLM 是自回归序列模型的终极形态
归根结底:LLM 没有抛弃传统序列模型,而是把“自回归”这一思想发挥到了极致。
-
Transformer 解决长程依赖
-
大规模训练增强表达能力
-
自回归方式保证稳定生成
三者结合,成就了今天的大模型时代。
1258

被折叠的 条评论
为什么被折叠?



