一、GPT-1:预训练微调范式的奠基者(2018)
(一)架构创新:单向Transformer解码器的诞生
GPT-1首次将Transformer架构应用于语言模型领域,其核心采用12层Transformer解码器,摒弃了传统RNN的递归结构,通过自注意力机制实现并行计算。与Encoder-Decoder架构不同,GPT-1仅使用解码器部分,每个解码器层包含:
- 多头自注意力模块:8个头,每个头维度64,总隐藏层维度768
- 前馈神经网络:中间层维度3072,采用GELU激活函数
- 层归一化:采用Pre-LayerNorm(归一化层位于子层输入前)
其语言建模目标为自回归分布:
P(w1,w2,...,wn)=∏i=1nP(wi∣w1,...,wi−1) P(w_1, w_2, ..., w_n) = \prod_{i=1}^n P(w_i | w_1, ..., w_{i-1})