大模型入门到精通 | 一文讲清楚大模型关键词及原理（二）Transformer架构、GPT、Bert、Token-优快云博客

一、Transformer 架构

该架构是在谷歌于 2017年发表的论文“Attention Is All You Need”中首次提出的。Transformer 最初是为机器翻译任务（比如将英文翻译成德语和法语）开发的。
在这里插入图片描述

Transformer 架构由两个子模块构成：编码器和解码器。编码器(encoder)模块负责处理输入文本，将其编码为一系列数值表示或向量，以捕捉输入的上下文信息。然后，解码器(decoder)模块接收这些编码向量，并据此生成输出文本。以翻译任务为例，编码器将源语言的文本编码成向量，解码器则解码这些向量以生成目标语言的文本。编码器和解码器都是由多层组成，这些层通过自注意力机制连接。

Transformer 和大语言模型的一大关键组件是自注意力机制(self-attention mechanism)，它允许模型衡量序列中不同单词或词元之间的相对重要性。这一机制使得模型能够捕捉到输入数据中长距离的依赖和上下文关系，从而提升其生成连贯且上下文相关的输出的能力。

并非所有的 Transformer 都是大语言模型，因为Transformer 也可用于计算机视觉领域。同样，并非所有的大语言模型都基于 Transformer 架构，因为还存在基于循环和卷积架构的大语言模型。

二、GPT 与 Bert

与原始 Transformer 架构相比，GPT的通用架构更为简洁。

在这里插入图片描述

它只包含解码器部分，并不包含编码器。由于像 GPT 这样的解码器模型是通过逐词预测生成文本，因此它们被认为是一种自回归模型(autoregressive model)。自回归模型将之前的输出作为未来预测的输入。GPT-3 总共有 96 层 Transformer 和 1750 亿个参数虽然原始的 Transformer 模型（包含编码器模块和解码器模块）专门为语言翻译而设计，但 GPT 模型采用了更大且更简单的纯解码器架构，旨在预测下一个词，并且它们也能执行翻译任务。模型能够完成未经明确训练的任务的能力称为涌现(emergence)。这种能力并非模型在训练期间被明确教授所得，而是其广泛接触大量多语言数据和各种上下文的自然结果。

GPT 则侧重于原始 Transformer 架构的解码器部分，主要用于处理生成文本的任务，包括机器翻译、文本摘要、小说写作、代码编写等。零样本学习(zero-shot learning)是指在没有任何特定示例的情况下，泛化到从未见过的任务，而少样本学习(few-shot learning)是指从用户提供的少量示例中进行学习。

BERT 基于原始 Transformer的编码器模块构建，其训练方法与GPT 不同。GPT 主要用于生成任务，而 BERT 及其变体专注于掩码预测(masked word prediction)，即预测给定句子中被掩码的词。
在这里插入图片描述

总而言之： GPT 是 Transformer的解码器部分，Bert 是 Transformer 的编码器部分。

三、Token

词元(token)是模型读取文本的基本单位。数据集中的词元数量大致等同于文本中的单词和标点符号的数量。

分词，即将文本转换为词元的过程。

预训练 GPT-3的云计算费用成本估计高达 460 万美元。该模型仅在 3000 亿个词元上进行了训练。好消息是，许多预训练的大语言模型是开源模型，可以作为通用工具，用于写作、摘要和编辑那些未包含在训练数据中的文本。

同时，这些大语言模型可以使用相对较小的数据集对特定任务进行微调，这不仅减少了模型所需的计算资源，还提升了它们在特定任务上的性能。下一单词预测任务采用的是自监督学习(self-supervised learning)模式，这是一种自我标记的方法。这意味着我们不需要专门为训练数据收集标签，而是可以利用数据本身的结构。也就是说，我们可以使用句子或文档中的下一个词作为模型的预测标签。由于该任务允许“动态”创建标签，因此我们可以利用大量的无标注文本数据集来训练大语言模型。
在这里插入图片描述