生成式人工智能(Generative AI)近年来取得了令人瞩目的进展,其背后的核心技术是自回归模型的不断演进。从传统的递归神经网络(RNN)到革命性的Transformer架构,本文将全面剖析这一技术发展历程。
一、RNN:生成式模型的起点
1. RNN的基本原理
递归神经网络(Recurrent Neural Network, RNN)是一种专为处理序列数据设计的神经网络架构。其核心思想是通过循环连接的隐藏状态(hidden state)实现对序列上下文信息的捕获。
公式表达为:
其中, 表示当前时间步的隐藏状态, 是输入, 是权重矩阵, 是偏置。
2. 优势与局限
RNN的优势在于其对时间序列数据的天然适配。然而,其局限性同样明显:
-
梯度消失与爆炸问题:导致长程依赖难以捕获。
-
计算效率低下:由于序列数据的逐步处理,难以并行化。
为了解决这些问题,LSTM(长短期记忆网络)和GRU(门控循环单元)应运而生。
二、LSTM与GRU:RNN的改进
1. LSTM的创新
LSTM通过引入门控机制,缓解了梯度消失问题。其核心组件包括:输入门、遗忘门和输出门。记忆单元(Cell State)允许信息在长时间跨度内得以保留。
2. GRU的简化设计
GRU对LSTM进行了简化,仅保留两个门:重置门和更