【LLM基础】序列模型与大模型：从自回归到 LLM 的技术演化

原创于 2025-11-26 09:46:29 发布 · 545 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型

LLM学习专栏收录该内容

1 篇文章

订阅专栏

在这里插入图片描述

一、引言

在自学大模型（LLM）的过程中，我逐渐意识到：理解序列模型是理解 LLM 的核心路径。大模型的行为虽然复杂，但其底层机制其实非常简单：

LLM（如 GPT、LLaMA、Qwen）本质上是一类序列建模模型。
它的任务就是：根据前面的 token，预测下一个 token。

这种预测方式在统计学中已有几十年历史，它有一个共同的名称：自回归（Autoregressive, AR）

而现代 LLM（如 GPT、LLaMA、Qwen）正是：
$\text{LLM} = \text{Transformer架构} + \text{自回归训练范式}$
理解这层关系，有助于更好理解 Transformer 的设计动机，也能让整个 LLM 原理体系变得清晰可解释。

二、自回归模型：传统序列模型的核心思想

在机器学习出现之前，序列建模的主要工具来自传统统计模型。其中最经典的一类就是线性时间序列模型，包括：

AR（Autoregressive，自回归模型）
MA（Moving Average，滑动平均模型）
ARMA / ARIMA（在 AR 与 MA 基础上加入差分、季节性等结构）

这类模型都围绕一个共同的思路：当前时刻的值由过去序列中的若干值共同决定。

1. AR模型

在这些模型中，AR（自回归）最能体现这一思想。它的数学形式为：
$x_t = f(x_{t-1}, x_{t-2}, \cdots, x_{t-k}) + \epsilon$
其核心特征包括：

依据过去 $k$ 个观测预测当前值（ $k$ 阶马尔可夫模型）
模型结构简单、可解释性强
强调序列时间依赖

可以看到，AR 模型虽然结构朴素，但它所体现的“利用过去预测未来”的思想，成为后续所有序列建模方法的基础。从 RNN/LSTM 到 Transformer，再到现代 LLM，这一思想始终没有改变，只是模型函数 $f (\cdot)$ 从线性形式演化为更强大的神经网络结构。

三、深度学习接棒：自回归思想未变、模型更强

随着深度学习的兴起，序列任务由 RNN 一类模型接棒：RNN、LSTM、GRU。

虽然模型结构变得复杂，但其训练范式保持不变：
$P(x_t|x_{<t})$
也就是说：深度学习序列模型依然是自回归模型，只是把传统的线性函数 $f$ 替换为了强大的神经网络。

RNN 引入循环结构，LSTM/GRU 引入门控机制来增强长程依赖能力，但底层思想仍然延续传统 AR：
过去决定现在。

四、Transformer 如何成为“自回归模型”？

Transformer 最初是为机器翻译提出的，是一种用于建模序列关系的结构（基于注意力机制），它本身不是自回归模型。
但当我们使用以下训练目标时：
$\max \prod_t P(x_t \mid x_{<t})$

并配合 Causal Mask（因果掩码） 限制当前 token 只能访问前文，Transformer 便被“转化”为：自回归语言模型（Autoregressive Language Model, AR LM），这也就是 GPT 的工作模式。

注意力机制让模型能在任意长度上下文中建立依赖，而自回归训练方式让它能够按序生成语言。

五、自回归模型到LLM的技术演化脉络

将传统模型到 LLM 的发展串起来，就是一条非常清晰的演化链：
在这里插入图片描述

可以看到：LLM 并不是脱离传统 AR，而是将自回归思想推向了极致。

六、为什么现代 LLM 仍坚持自回归？

虽然 LLM 能执行对话、推理、写代码等复杂任务，但其底层仍依赖一个核心训练方式：
$\text{下一个 token 预测（Next-Token Prediction, NTP）}$
坚持自回归具有以下优势：

✔ 1）天然契合语言顺序

语言本质上是按 token 顺序展开的，AR 与其完全吻合。

✔ 2）训练目标简单稳定

无需标注数据，只需大量文本即可学习丰富语义与世界知识。

✔ 3）推理方式稳定

逐 token 预测，不会出现整句预测失败的问题。

✔ 4）支持长文本生成

适合对话、故事生成等场景，可在线持续生成。

这些原因也是为什么 BERT 虽然强大，却不用于生成任务。

七、自回归思想对 LLM 的深层影响

自回归不仅是一种训练方式，也深刻影响 LLM 的推理机制与能力边界。

1. 训练方式完全继承 AR 范式

$P(x_t \mid x_{<t})$

这是 LLM 学习语言、知识和推理能力的核心。

2. 生成方式仍是 AR

生成流程如下：

输入已有 tokens
预测下一个 token
将预测结果加入上下文，继续预测

与传统 AR 完全一致。

3. 底层行为就是序列预测

无论 LLM 看起来多么“智能”，其本质都是：

一个极其强大的序列预测器。

大规模带来高质量预测，从而表现出“智能”般行为。

八、结语：LLM 是自回归序列模型的终极形态

归根结底：LLM 没有抛弃传统序列模型，而是把“自回归”这一思想发挥到了极致。

Transformer 解决长程依赖
大规模训练增强表达能力
自回归方式保证稳定生成

三者结合，成就了今天的大模型时代。