【AI大模型】15、从GPT-1到GPT-3:大语言模型核心技术演进与能力涌现全解析

在这里插入图片描述

一、GPT-1:预训练微调范式的奠基者(2018)

(一)架构创新:单向Transformer解码器的诞生

GPT-1首次将Transformer架构应用于语言模型领域,其核心采用12层Transformer解码器,摒弃了传统RNN的递归结构,通过自注意力机制实现并行计算。与Encoder-Decoder架构不同,GPT-1仅使用解码器部分,每个解码器层包含:

  • 多头自注意力模块:8个头,每个头维度64,总隐藏层维度768
  • 前馈神经网络:中间层维度3072,采用GELU激活函数
  • 层归一化:采用Pre-LayerNorm(归一化层位于子层输入前)

其语言建模目标为自回归分布:
P(w1,w2,...,wn)=∏i=1nP(wi∣w1,...,wi−1) P(w_1, w_2, ..., w_n) = \prod_{i=1}^n P(w_i | w_1, ..., w_{i-1})

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

无心水

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值