GPT(Generative Pre-Training)论文解读及实现(一)

文章介绍了GPT框架,首先通过无监督预训练,利用多层Transformer解码器构建语言模型,最大化序列中下一个词出现的概率。接着,在预训练模型基础上,对下游任务进行微调,采用预训练模型的最后一层输出加上一层全连接层进行分类。添加语言模型作为辅助任务能提升模型的泛化性能并加速收敛。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 GPT Framework

1.1 Unsupervised pre-training

Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood:
在给定语料上下文环境下,目标时最大化下面的语言模型,即在给定前 i-1个词和参数θ前提下,使第 i 个词出现的概率最大。
在这里插入图片描述

we use a multi-layer Transformer decoder [34] for the language model
我们使用多层Transormer decoder层来实现GPT,公式如下图所示。
U是输入语料,We是全量字典token embedding矩阵,Wp是位置embedding 矩阵,n代表了有n层transformer_block.
p(u)是最后输出的softmax概率
在这里插入图片描述
在这里插入图片描述](https://img-blog.csdnimg.cn/7cb38e56f8a14b5daa2dbf2ab6b1a7bd.png)

1.2 Unsupervised pre-training

有了上面的预训练模型后,在进行下游任务。
在给定数据x1,x2 …,xm 和label y时,
① 将数据 X输入上面预训练模
② 取预训练模型的transformer_block最后一层作为预训练模型输出
③ 在预训练模型输出结果上再加一层全连接层,权重Wy,得到分类模型。
④ 最大化分类模型
在这里插入图片描述

We additionally found that including language modeling as an auxiliary objective to the fine-tuning helped learning by improving generalization of the supervised model, and accelerating convergence.
怎加语言模型作为微调模型的附属任务,有利于改善模型泛化能力和加快收敛。
整个微调任务,只增加了参数Wy,没有增加任何其他参数。
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值