前言
GPT-2是一个巨大的, 基于Transformer的语言模型, 它是在一个巨大的数据集上训练的
1 GPT2和语言模型
1.1 什么是语言模型
什么语言模型?
GPT-2 基本上就是键盘应用程序中预测下一个词的功能
1.2 语言模型的Transformer
Transformer 模型是由Encoder 和 Decoder 组成的
1.3 与BERT的一个不同之处
GPT-2 是使用Transformer的Decoder 模块构建的
BERT 是使用Transformer 的Encoder 模块构建的
1.4 Transformer 模块的进化
(1) Encoder模块
原始的接受特定长度的输入---->可以填充序列的其余部分
(2) Decoder 模块
会屏蔽未来的token