【LLM基础】序列模型与大模型:从自回归到 LLM 的技术演化

在这里插入图片描述

一、引言

​ 在自学大模型(LLM)的过程中,我逐渐意识到:理解序列模型是理解 LLM 的核心路径。大模型的行为虽然复杂,但其底层机制其实非常简单:

LLM(如 GPT、LLaMA、Qwen)本质上是一类序列建模模型。
它的任务就是:根据前面的 token,预测下一个 token。

​ 这种预测方式在统计学中已有几十年历史,它有一个共同的名称:自回归(Autoregressive, AR)

​ 而现代 LLM(如 GPT、LLaMA、Qwen)正是:
LLM=Transformer架构+自回归训练范式 \text{LLM} = \text{Transformer架构} + \text{自回归训练范式} LLM=Transformer架构+自回归训练范式
​ 理解这层关系,有助于更好理解 Transformer 的设计动机,也能让整个 LLM 原理体系变得清晰可解释。

二、自回归模型:传统序列模型的核心思想

​ 在机器学习出现之前,序列建模的主要工具来自传统统计模型。其中最经典的一类就是线性时间序列模型,包括:

  • AR(Autoregressive,自回归模型)

  • MA(Moving Average,滑动平均模型)

  • ARMA / ARIMA(在 AR 与 MA 基础上加入差分、季节性等结构)

    这类模型都围绕一个共同的思路:当前时刻的值由过去序列中的若干值共同决定。

1. AR模型

​ 在这些模型中,AR(自回归)最能体现这一思想。它的数学形式为:
xt=f(xt−1,xt−2,⋯ ,xt−k)+ϵ x_t = f(x_{t-1}, x_{t-2}, \cdots, x_{t-k}) + \epsilon xt=f(xt1,xt2,,xtk)+ϵ
​ 其核心特征包括:

  • 依据过去kkk个观测预测当前值kkk阶马尔可夫模型)
  • 模型结构简单、可解释性强
  • 强调序列时间依赖

​ 可以看到,AR 模型虽然结构朴素,但它所体现的“利用过去预测未来”的思想,成为后续所有序列建模方法的基础。从 RNN/LSTM 到 Transformer,再到现代 LLM,这一思想始终没有改变,只是模型函数f(⋅)f(·)f()从线性形式演化为更强大的神经网络结构。

三、深度学习接棒:自回归思想未变、模型更强

随着深度学习的兴起,序列任务由 RNN 一类模型接棒:RNN、LSTM、GRU。

​ 虽然模型结构变得复杂,但其训练范式保持不变:
P(xt∣x<t) P(x_t|x_{<t}) P(xtx<t)
​ 也就是说:深度学习序列模型依然是自回归模型,只是把传统的线性函数fff替换为了强大的神经网络。

​ RNN 引入循环结构,LSTM/GRU 引入门控机制来增强长程依赖能力,但底层思想仍然延续传统 AR:
过去决定现在

四、Transformer 如何成为“自回归模型”?

​ Transformer 最初是为机器翻译提出的,是一种用于建模序列关系的结构(基于注意力机制),它本身不是自回归模型。
​ 但当我们使用以下训练目标时:
max⁡∏tP(xt∣x<t) \max \prod_t P(x_t \mid x_{<t}) maxtP(xtx<t)

​ 并配合 Causal Mask(因果掩码) 限制当前 token 只能访问前文,Transformer 便被“转化”为:自回归语言模型(Autoregressive Language Model, AR LM),这也就是 GPT 的工作模式。

​ 注意力机制让模型能在任意长度上下文中建立依赖,而自回归训练方式让它能够按序生成语言。

五、自回归模型到LLM的技术演化脉络

​ 将传统模型到 LLM 的发展串起来,就是一条非常清晰的演化链:
在这里插入图片描述

​ 可以看到:LLM 并不是脱离传统 AR,而是将自回归思想推向了极致。

六、为什么现代 LLM 仍坚持自回归?

​ 虽然 LLM 能执行对话、推理、写代码等复杂任务,但其底层仍依赖一个核心训练方式:
下一个 token 预测(Next-Token Prediction, NTP) \text{下一个 token 预测(Next-Token Prediction, NTP)} 下一个 token 预测(Next-Token Prediction, NTP
​ 坚持自回归具有以下优势:

✔ 1)天然契合语言顺序

​ 语言本质上是按 token 顺序展开的,AR 与其完全吻合。

✔ 2)训练目标简单稳定

​ 无需标注数据,只需大量文本即可学习丰富语义与世界知识。

✔ 3)推理方式稳定

​ 逐 token 预测,不会出现整句预测失败的问题。

✔ 4)支持长文本生成

​ 适合对话、故事生成等场景,可在线持续生成。

​ 这些原因也是为什么 BERT 虽然强大,却不用于生成任务。

七、自回归思想对 LLM 的深层影响

​ 自回归不仅是一种训练方式,也深刻影响 LLM 的推理机制与能力边界。

1. 训练方式完全继承 AR 范式

P(xt∣x<t) P(x_t \mid x_{<t}) P(xtx<t)

​ 这是 LLM 学习语言、知识和推理能力的核心。

2. 生成方式仍是 AR

​ 生成流程如下:

  • 输入已有 tokens

  • 预测下一个 token

  • 将预测结果加入上下文,继续预测

    与传统 AR 完全一致。

3. 底层行为就是序列预测

无论 LLM 看起来多么“智能”,其本质都是:

一个极其强大的序列预测器。

大规模带来高质量预测,从而表现出“智能”般行为。

八、结语:LLM 是自回归序列模型的终极形态

​ 归根结底:LLM 没有抛弃传统序列模型,而是把“自回归”这一思想发挥到了极致。

  • Transformer 解决长程依赖

  • 大规模训练增强表达能力

  • 自回归方式保证稳定生成

    三者结合,成就了今天的大模型时代。

【无人机】基于改进粒子群算法的无人机路径规划研究[和遗传算法、粒子群算法进行比较](Matlab代码实现)内容概要:本文围绕基于改进粒子群算法的无人机路径规划展开研究,重点探讨了在复杂环境中利用改进粒子群算法(PSO)实现无人机三维路径规划的方法,并将其遗传算法(GA)、标准粒子群算法等传统优化算法进行对比分析。研究内容涵盖路径规划的多目标优化、避障策略、航路点约束以及算法收敛性和寻优能力的评估,所有实验均通过Matlab代码实现,提供了完整的仿真验证流程。文章还提到了多种智能优化算法在无人机路径规划中的应用比较,突出了改进PSO在收敛速度和全局寻优方面的优势。; 适合人群:具备一定Matlab编程基础和优化算法知识的研究生、科研人员及从事无人机路径规划、智能优化算法研究的相关技术人员。; 使用场景及目标:①用于无人机在复杂地形或动态环境下的三维路径规划仿真研究;②比较不同智能优化算法(如PSO、GA、蚁群算法、RRT等)在路径规划中的性能差异;③为多目标优化问题提供算法选型和改进思路。; 阅读建议:建议读者结合文中提供的Matlab代码进行实践操作,重点关注算法的参数设置、适应度函数设计及路径约束处理方式,同时可参考文中提到的多种算法对比思路,拓展到其他智能优化算法的研究改进中。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值