Transformer、BERT以及GPT系列联系

原创已于 2024-10-11 10:41:50 修改 · 557 阅读

CC 4.0 BY-SA版权

文章标签：

于 2024-10-11 10:37:06 首次发布

① Transformer使用自注意力机制进行编码和解码，能够处理长序列数据；
② BERT使用掩码语言模型和下一句预测任务进行训练，能够在不同的自然语言处理任务中取得良好的效果；
③ GPT大模型是一种基于自回归模型的语言模型，能够生成连贯、自然的文本内容。

Transformer是一种新型的神经网络架构，用于处理自然语言任务，比如机器翻译和文本生成。它的特点是能够同时考虑输入序列中所有位置的信息，并且具有非常好的并行化性能。它使用了自注意力机制进行序列建模的神经网络架构，也采用了残差连接和层归一化等技术，以加快模型收敛速度和提高模型的泛化能力。
自注意力机制是一种能够在序列中捕捉每个位置之间相对关系的机制。自注意力机制可以用于学习词之间的依赖关系，从而更好地理解和生成自然语言。

BERT是一种基于Transformer架构的预训练语言模型它使用大量未标记的文本进行预训练，然后使用标记的数据进行微调。全称Bidirectional Encoder Representations from Transformers。
BERT的特点在于它可以双向地处理输入序列，从而更好地捕捉上下文中的语义信息。BERT模型的输入是两个序列，一个序列作为模型的输入，另一个序列作为模型的输出，模型需要判断这两个序列是否相互关联。这个过程被称为下一句预测任务。此外，BERT还使用了掩码语言模型，其中模型在输入序列中随机地掩盖一些单词，并要求模型预测这些被掩盖的单词。这个训练任务有助于模型更好地理解语言中的上下文信息。

（1）MLM是指在训练的时候随即从输入语料上mask掉一些单词，然后通过的上下文预测该单词，该任务非常像我们在中学时期经常做的完形填空。正如传统的语言模型算法和RNN匹配那样，MLM的这个性质和Transformer的结构是非常匹配的。在BERT的实验中，15%的WordPiece Token会被随机Mask掉。在训练模型时，一个句子会被多次喂到模型中用于参数学习，但是Google并没有在每次都mask掉这些单词，而是在确定要Mask掉的单词之后，做以下处理。

80%的时候会直接替换为[Mask]，将句子 “my dog is cute” 转换为句子 “my dog is [Mask]”。
10%的时候将其替换为其它任意单词，将单词 “cute” 替换成另一个随机词，例如 “apple”。将句子 “my dog is cute” 转换为句子 “my dog is apple”。
10%的时候会保留原始Token，例如保持句子为 “my dog is cute” 不变。
这么做的原因是如果句子中的某个Token 100%都会被mask掉，那么在fine-tuning的时候模型就会有一些没有见过的单词。加入随机Token的原因是因为Transformer要保持对每个输入token的分布式表征，否则模型就会记住这个[mask]是token ’cute‘。至于单词带来的负面影响，因为一个单词被随机替换掉的概率只有15%*10% =1.5%，这个负面影响其实是可以忽略不计的。另外文章指出每次只预测15%的单词，因此模型收敛的比较慢。

（2）Next Sentence Prediction（NSP）的任务是判断句子B是否是句子A的下文。如果是的话输出’IsNext‘，否则输出’NotNext‘。训练数据的生成方式是从平行语料中随机抽取的连续两句话，其中50%保留抽取的两句话，它们符合IsNext关系，另外50%的第二句话是随机从预料中提取的，它们的关系是NotNext的。这个关系保存在图4中的[CLS]符号中。

GPT大模型（全称是Generative Pre-training Transformer）技术是一种使用自回归模型进行语言建模的预训练模型，和Bert一样它也采用了Transformer架构，并使用了大量未标记的文本进行预训练。
GPT的特点在于它能够自动地生成自然语言文本，可以用于文本生成、对话系统等任务。它采用了无监督的预训练方法，不需要人工标注的数据，可以更好地利用现有的大规模文本语料库。它的独特之处在于它具有非常大的参数量和深度，能够学习到更多的语言知识，并生成更加自然的文本。GPT模型的输入是一个文本序列，目标是生成与输入序列相关的下一个单词或单词序列。在GPT中，每个单词的表示都是通过自回归模型计算得到的，这个模型会考虑前面所有的单词，以及它们对应的位置，来预测下一个单词。