GPT(Generative Pre-Training)论文解读及实现(一)_gpt token embedding矩阵-优快云博客

文章介绍了GPT框架，首先通过无监督预训练，利用多层Transformer解码器构建语言模型，最大化序列中下一个词出现的概率。接着，在预训练模型基础上，对下游任务进行微调，采用预训练模型的最后一层输出加上一层全连接层进行分类。添加语言模型作为辅助任务能提升模型的泛化性能并加速收敛。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 GPT Framework

1.1 Unsupervised pre-training

Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood:
在给定语料上下文环境下，目标时最大化下面的语言模型，即在给定前 i-1个词和参数θ前提下，使第 i 个词出现的概率最大。
在这里插入图片描述

we use a multi-layer Transformer decoder [34] for the language model
我们使用多层Transormer decoder层来实现GPT,公式如下图所示。
U是输入语料，We是全量字典token embedding矩阵，Wp是位置embedding 矩阵,n代表了有n层transformer_block.
p(u)是最后输出的softmax概率

在这里插入图片描述](https://img-blog.csdnimg.cn/7cb38e56f8a14b5daa2dbf2ab6b1a7bd.png)

1.2 Unsupervised pre-training

有了上面的预训练模型后，在进行下游任务。
在给定数据x1,x2 …,xm 和label y时，
① 将数据 X输入上面预训练模
② 取预训练模型的transformer_block最后一层作为预训练模型输出
③ 在预训练模型输出结果上再加一层全连接层，权重Wy，得到分类模型。
④ 最大化分类模型
在这里插入图片描述

We additionally found that including language modeling as an auxiliary objective to the fine-tuning helped learning by improving generalization of the supervised model, and accelerating convergence.
怎加语言模型作为微调模型的附属任务，有利于改善模型泛化能力和加快收敛。
整个微调任务，只增加了参数Wy，没有增加任何其他参数。
在这里插入图片描述